草庐IT

元中都

全部标签

sql - 如何根据某些条件在配置单元中获取收集集

如何根据某些条件获取hive中的collectsetid|num_of_cats=====================HOPAHOPBHOPCCAPACAPCCAPBTOPC如果指标是A则第一个字段是1。顺序是A,B,C例如:第一行仅包含A,因此指标为1,0,0第二行只包含B所以指标是0,1,0应该返回:id|cats_aggregate(indicatororderisA,B,C)===========================HOPArray(1,0,0)HOPArray(0,1,0)HOPArray(0,0,1)CAPArray(1,0,0)CAPArray(0,0,1

hadoop - 失败 : Execution Error, 在配置单元中的连接操作期间从 org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask​​ 返回代码 2

我正尝试在配置单元中对以下两个表运行连接查询-selectb.locationfromuser_activity_ruleainnerjoinuser_info_rulebwherea.uid=b.uidanda.cancellation=true;QueryID=username_20180530154141_0a187506-7aca-442a-8310-582d335ad78dTotaljobs=1OpenJDK64-BitServerVMwarning:ignoringoptionMaxPermSize=512M;supportwasremovedin8.0Executionl

hadoop - 在配置单元中执行插入覆盖查询时出错

我使用的是hadoop1.2、hbase0.94.8和hive0.14。我正在尝试使用配置单元将数据插入到hbase表中。我已经创建了表:CREATETABLEhbase_table_emp(idint,namestring,rolestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:name,cf1:role")TBLPROPERTIES("hbase.table.name"="emp");并将数据加

json - 在配置单元中配置对象时出错

我正在尝试使用推文和hadoop中的配置单元制作一个情感分析项目。我在tweetsjson格式之上创建了一个表,我可以在查询SELECT*FROMTWEETS后查看推文;然后我创建了以下View,但这不是在查询中检索数据Select*fromtweet_simple;hive>CREATEVIEWtweets_simpleAS>SELECT>id,>cast(from_unixtime(unix_timestamp(concat('2014',substring(created_at,5,15)),'yyyyMMMddhh:mm:ss'))astimestamp)ts,>text,>u

hadoop - 无法将数据加载到配置单元中的分区表中

我无法将数据加载到分区表中,因为它显示“动态分区严格模式需要至少一个静态分区列。要关闭此功能,请设置hive.exec.dynamic.partition.mode=nonstrict“即使在设置sethive.exec.dynamite.partition.mode=nonstrict时也会出现上述错误;配置单元>设置hive.exec.dynamite.partition=true;这些参数我得到了同样的错误。请建议我更好的解决方案。提前致谢; 最佳答案 你有各种各样的错别字(还有一种很有趣的把事情搞砸的倾向):hive.exe

hadoop - 替换配置单元中的 NULL

我在配置单元中有一个表,其中包含以“null”作为数据的列。我想用“N/A”替换“null”尝试使用COALESCE(col_name,'N/A')但它不起作用我用了if并且有效if(col_name='null','N/A',col_name)我在列中有百万个值,这个“如果”会影响性能吗?如果是,处理这种情况的最佳方法是什么?请建议 最佳答案 使用IF条件不会影响您的性能。无论您选择什么条件函数(CASE、NVL、IF等),它都需要遍历所有记录以检查该条件。继续使用IF条件 关于had

hadoop - 从配置单元中删除表不起作用

我想从表A中删除列c大于表B的列c的行我试过了delete*fromAwhereA.p>=(selectmax(t.c)fromBt)但它不起作用。我怎样才能做到这一点? 最佳答案 INSERT...VALUES、UPDATE和DELETE语句需要hive-site.xml配置文件中的以下属性值:hive.enforce.bucketingtruehive.exec.dynamic.partition.modenonstrict更新相应的hive-site.xml中的配置后,重新启动服务–HiveServer2和HiveMetast

sql - 如何删除配置单元中特殊字符后的值

我有一个列状态为的配置单元表**state**taxes,TXWashington,WANewYork,NYNewJersey,NJ现在我想把状态列分开,我想把它写在新的列中**state****code**taxesTXWashingtonWANewYorkNYNewJerseyNJ 最佳答案 selectsplit(state,',')[0]asstate,ltrim(split(state,',')[1])ascodefrommytable+------------+------+|state|code|+----------

hadoop - 子查询中的子查询在配置单元中不起作用

我有一个复杂的查询,我在这里给出了它的简化版本。想知道为什么它不起作用。select*from((select1)t1union(select2)t2);出现以下错误NoViableAltException(290@[147:5:((IdentifierLPAREN)=>partitionedTableFunction|tableSource|subQuerySource|virtualTableSource)])atorg.antlr.runtime.DFA.noViableAlt(DFA.java:158)atorg.antlr.runtime.DFA.predict(DFA.ja

配置单元中的日期差异,差异应在 hh :mm:ss 中

我试图找出连续行中两个日期之间的差异。我在配置单元中使用窗口函数,即lag。但不同之处在于,输出格式应为hh:mm:ss。例如:日期1是2017-08-1502:00:32日期2是2017-08-1502:00:20输出应该是:00:00:12我试过的查询:selectfrom_unixtime(column_name),(lag(unix_timestamp(from_unixtime(column_name)),1,0)over(partitionbycolumn_name)-unix_timestamp(from_unixtime(column_name)))asDuration