hive-table

sql - 在数据中查找指定模式--Hive

我的表有如下数据Column--------1122521122621122821122121122221122442我需要在模式Hive中找到那些在MIDDLE中有空格的数字的计数。如果可能的话，请帮我解释一下计数。最佳答案使用like和count(*):selectcount(*)fromtwherecolumnlike'%%'; 关于sql-在数据中查找指定模式--Hive，我们在StackOverflow上找到一个类似的问题： https://st

hadoop - 通过第三方工具的 Google Dataproc Hive 实例

这里需要你的帮助。我希望将我的GoogleDataprocHadoop/Hive实例与第三方工具连接起来，并从“ToadforHadoop”开始。这是一个好的选择吗？或者还有其他我可以使用的工具吗？最佳答案 Dataproc默认运行HiveServer2服务器，如果您在ComputeEngine中适当设置防火墙规则(不要只对来自外部互联网的所有传入连接开放它!将它限制为您自己的IP地址'正在连接)，任何第三方工具都可以正常连接。您可以通过云控制台GUI找到主主机名的外部IP地址。查看主节点上的/etc/hive/conf/hive

Dataproc hadoop section stackoverflow hive google-cloud-dataproc

regex - 如何使用 RegexSerDe 将日志文件加载到 Hive 表中？

我有一个具有以下格式的日志文件，我想从中提取ip、datetime和uri并加载到表中。64.242.88.10--[07/Mar/2004:17:09:01-0800]"GET/twiki/bin/search/Main/SearchResult?scope=text&search=Joris%20*Benschop[^A-Za-z]HTTP/1.1"2004284我可以通过将日志文件行作为单个字符串加载到表中并使用regexp_extract来做到这一点。创建表日志(行字符串)；将数据本地inpath'.../mylog.log'加载到表日志中；选择regexp_extract(l

RegexSerDe regex code section regexp_extract hadoop hive

hadoop - Hive 中的 CRUD 操作

我正在尝试在Hive中执行CRUD操作并能够成功运行插入查询，但是当我尝试运行更新和删除时出现以下异常。失败:SemanticException[错误10294]:尝试使用不支持这些操作的事务管理器进行更新或删除。我运行的查询列表CREATETABLEstudents(nameVARCHAR(64),ageINT,gpaDECIMAL(3,2))CLUSTEREDBY(age)INTO2BUCKETSSTOREDASORC;INSERTINTOTABLEstudentsVALUES('fredflintstone',35,1.28),('barneyrubble',32,2.32);C

hadoop Hive 39 section 时出 hql crud

arrays - Hive Array<Struct<>>插入显示null

我创建了一个包含结构数组的临时表createtabletemp(regionkeysmallint,namestring,commentstring,nationsarray>)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'|'COLLECTIONITEMSTERMINATEDBY',';然后我将数据加载到表中LOADDATALOCALINPATH'/DataSets/region.csv'INTOTABLEtemp;什么时候需要的输出select*fromtemp;是4EUROPELowsaleBusinessRegion[{"n_nationkey":2

amp arrays 34 code comment hadoop struct hive

hadoop - MSCK REPAIR TABLE 表名耗时较长

我在包含超过28K分区的配置单元表上运行MSCKREPAIRTABLE表名，我们将每10分钟接收一个分区。当我们每10分钟在此表上运行一次MSCKREPAIRTABLE时，它会花费很多时间有人可以建议为什么需要更多时间吗？(即超过5-10分钟)提前致谢。hive版本:1.1.0 最佳答案这是一个非常糟糕的做法。无论目录是否已经映射到分区，MSCKREPAIR仍然需要获取所有目录的列表以及所有分区的列表并进行比较。相反，您应该在每次添加目录时使用altertable...addpartition...添加一个分区。

hadoop REPAIR section code hive hiveql

hadoop - 通过 HQL 更改 hive 表中映射列中的一个键值

我有一个Hive表，其架构如下，col是map类型:selectcolfromtablecol{"name":"abc","value":"val_1"}我需要做的是将val_1更改为val_2并从中创建另一个表。createtabletable_2asselectcol--TODO:needtodosomethingherefromtable有什么建议吗？谢谢! 最佳答案 withtas(selectmap("name","abc","value","val_1")ascol)selectmap("name",col["name"

hadoop hive 34 code section hql hiveql

hadoop - Apache HIVE 中的表定义问题

以下是我推送到名为temp_stat的Hive表中的数据集:COUNTRYCITYTEMP-----------------------------------USArizona51.7USCalifornia56.7USBullheadCity51.1IndiaJaisalmer42.4LibyaAziziya57.8IranLutDesert70.7IndiaBanda42.4当我尝试通过select命令查看数据时，我得到以下数据集:US,Arizona,51.7NULLNULLUS,California,56.7NULLNULLUS,BullheadCity,51.1NULLNU

hadoop Apache NULL strong code hive mapreduce hiveql

hadoop - hive insert overwrite table with inner sub query of count of columns 作为结果

你好，我在源表“状态表”下面有datestatusname2017-06-22true1.tar2017-06-22true2.tar2017-06-22false3.tar2017-06-22true4.tar2017-06-22false5.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21true6.tar我在目标表列下面有预期的数据TrueFalseTotalDate3252017-06-221342017-06-21我在下面写了查询将数据从源表加载到目标表，但它说表达式不在GROU

overwrite columns code section 2017 hadoop hive hql hadoop-yarn

hadoop - 在S3上创建Hive外部表将引发 “org.apache.hadoop.fs.s3a.S3AFileSystem not found”异常

我在本地计算机上使用beeline在DDL下运行，并引发异常。DDL是CREATETABLE`report_landing_pages`(`google_account_id`stringCOMMENT'fromdeserializer',`ga_view_id`stringCOMMENT'fromdeserializer',`path`stringCOMMENT'fromdeserializer',`users`stringCOMMENT'fromdeserializer',`page_views`stringCOMMENT'fromdeserializer',`event_valu

hadoop S3AFileSystem java apache amazon-s3 hive

50 51 525354 55 56