草庐IT

hive-table

全部标签

sql - 在数据中查找指定模式--Hive

我的表有如下数据Column--------1122521122621122821122121122221122442我需要在模式Hive中找到那些在MIDDLE中有空格的数字的计数。如果可能的话,请帮我解释一下计数。 最佳答案 使用like和count(*):selectcount(*)fromtwherecolumnlike'%%'; 关于sql-在数据中查找指定模式--Hive,我们在StackOverflow上找到一个类似的问题: https://st

hadoop - 通过第三方工具的 Google Dataproc Hive 实例

这里需要你的帮助。我希望将我的GoogleDataprocHadoop/Hive实例与第三方工具连接起来,并从“ToadforHadoop”开始。这是一个好的选择吗?或者还有其他我可以使用的工具吗? 最佳答案 Dataproc默认运行HiveServer2服务器,如果您在ComputeEngine中适当设置防火墙规则(不要只对来自外部互联网的所有传入连接开放它!将它限制为您自己的IP地址'正在连接),任何第三方工具都可以正常连接。您可以通过云控制台GUI找到主主机名的外部IP地址。查看主节点上的/etc/hive/conf/hive

regex - 如何使用 RegexSerDe 将日志文件加载到 Hive 表中?

我有一个具有以下格式的日志文件,我想从中提取ip、datetime和uri并加载到表中。64.242.88.10--[07/Mar/2004:17:09:01-0800]"GET/twiki/bin/search/Main/SearchResult?scope=text&search=Joris%20*Benschop[^A-Za-z]HTTP/1.1"2004284我可以通过将日志文件行作为单个字符串加载到表中并使用regexp_extract来做到这一点。创建表日志(行字符串);将数据本地inpath'.../mylog.log'加载到表日志中;选择regexp_extract(l

hadoop - Hive 中的 CRUD 操作

我正在尝试在Hive中执行CRUD操作并能够成功运行插入查询,但是当我尝试运行更新和删除时出现以下异常。失败:SemanticException[错误10294]:尝试使用不支持这些操作的事务管理器进行更新或删除。我运行的查询列表CREATETABLEstudents(nameVARCHAR(64),ageINT,gpaDECIMAL(3,2))CLUSTEREDBY(age)INTO2BUCKETSSTOREDASORC;INSERTINTOTABLEstudentsVALUES('fredflintstone',35,1.28),('barneyrubble',32,2.32);C

arrays - Hive Array<Struct<>>插入显示null

我创建了一个包含结构数组的临时表createtabletemp(regionkeysmallint,namestring,commentstring,nationsarray>)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'|'COLLECTIONITEMSTERMINATEDBY',';然后我将数据加载到表中LOADDATALOCALINPATH'/DataSets/region.csv'INTOTABLEtemp;什么时候需要的输出select*fromtemp;是4EUROPELowsaleBusinessRegion[{"n_nationkey":2

hadoop - MSCK REPAIR TABLE 表名耗时较长

我在包含超过28K分区的配置单元表上运行MSCKREPAIRTABLE表名,我们将每10分钟接收一个分区。当我们每10分钟在此表上运行一次MSCKREPAIRTABLE时,它会花费很多时间有人可以建议为什么需要更多时间吗?(即超过5-10分钟)提前致谢。hive版本:1.1.0 最佳答案 这是一个非常糟糕的做法。无论目录是否已经映射到分区,MSCKREPAIR仍然需要获取所有目录的列表以及所有分区的列表并进行比较。相反,您应该在每次添加目录时使用altertable...addpartition...添加一个分区。

hadoop - 通过 HQL 更改 hive 表中映射列中的一个键值

我有一个Hive表,其架构如下,col是map类型:selectcolfromtablecol{"name":"abc","value":"val_1"}我需要做的是将val_1更改为val_2并从中创建另一个表。createtabletable_2asselectcol--TODO:needtodosomethingherefromtable有什么建议吗?谢谢! 最佳答案 withtas(selectmap("name","abc","value","val_1")ascol)selectmap("name",col["name"

hadoop - Apache HIVE 中的表定义问题

以下是我推送到名为temp_stat的Hive表中的数据集:COUNTRYCITYTEMP-----------------------------------USArizona51.7USCalifornia56.7USBullheadCity51.1IndiaJaisalmer42.4LibyaAziziya57.8IranLutDesert70.7IndiaBanda42.4当我尝试通过select命令查看数据时,我得到以下数据集:US,Arizona,51.7NULLNULLUS,California,56.7NULLNULLUS,BullheadCity,51.1NULLNU

hadoop - hive insert overwrite table with inner sub query of count of columns 作为结果

你好,我在源表“状态表”下面有datestatusname2017-06-22true1.tar2017-06-22true2.tar2017-06-22false3.tar2017-06-22true4.tar2017-06-22false5.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21true6.tar我在目标表列下面有预期的数据TrueFalseTotalDate3252017-06-221342017-06-21我在下面写了查询将数据从源表加载到目标表,但它说表达式不在GROU

hadoop - 在S3上创建Hive外部表将引发 “org.apache.hadoop.fs.s3a.S3AFileSystem not found”异常

我在本地计算机上使用beeline在DDL下运行,并引发异常。DDL是CREATETABLE`report_landing_pages`(`google_account_id`stringCOMMENT'fromdeserializer',`ga_view_id`stringCOMMENT'fromdeserializer',`path`stringCOMMENT'fromdeserializer',`users`stringCOMMENT'fromdeserializer',`page_views`stringCOMMENT'fromdeserializer',`event_valu