元

hadoop - 配置单元错误 : For Exists/Not Exists operator SubQuery must be Correlated

select*fromstudents1;students1.namestudents1.agestudents1.gpafred351.28barney322.32shyam322.32select*fromstudents2;students1.namestudents1.agefred35barney32当我运行这个查询时selectname,agefromstudents1wherenotexists(selectname,agefromstudents2);我收到这个波纹管错误Errorwhilecompilingstatement:FAILED:SemanticExcept

hadoop - 为了加快配置单元进程，如何使用 tez 调整映射器和缩减器数量

我尝试使用tez处理大数据(约150GB)的过程(句子的单词标签)，但问题是它花了很多时间(1周或更多)，然后我试图指定映射器的数量。虽然我设置了mapred.map.tasks=2000，但我无法阻止mapper被设置为150左右，所以我不能做我想做的事。我在oozie工作流文件中指定映射值并使用tez。如何指定映射器的数量？最后想加快进程，不用tez也可以。另外，我想用reducer统计标记的句子，也很花时间。而且，我还想知道如何调整内存大小以使用每个映射器和缩减器进程。最佳答案 Inordertomanuallysetthe

射器配置单 section code hadoop hive apache-tez

python - 为什么配置单元试图在 hdfs 中写入/用户？

使用如下所示的简单HiveQL查询:SELECTevent_typeFROM{{table}}wheredt=20140103limit10;{{table}}部分只是通过Jinja2使用的运行器代码插入。我正在使用来自python的subprocess.Popen在配置单元命令行上使用-e标志运行我的查询。出于某种原因，此设置试图写入HDFS中的常规/user目录？Sudo命令无效。产生的错误如下:JobSubmissionfailedwithexception:org.apache.hadoop.security.AccessControlException(Permissiond

配置单 python code section pre hadoop hive hdfs

hadoop - 仅基于月/年对配置单元表进行分区或分桶以优化查询

我正在构建一个包含大约40万行消息传递应用数据的表。当前表的列看起来像这样:消息标识符(整数)|发件人用户ID(整数)|other_col(字符串)|other_col2(int)|create_dt(时间戳)我将来要运行的很多查询都将依赖于涉及create_dt列的where子句。因为我预计这张表会增长，所以我想立即尝试优化它。我知道分区是一种方式，但是当我根据create_dt对其进行分区时，结果分区太多，因为我的每个日期都可以追溯到2013年11月。有没有办法改为按日期范围进行分区？每3个月分区一次怎么样？甚至每个月？如果这是可能的-我将来可能有太多分区导致效率低下吗？还有哪些其

配置单 hadoop section create_dt create hive

hadoop - 在配置单元中执行插入覆盖查询时出错

我使用的是hadoop1.2、hbase0.94.8和hive0.14。我正在尝试使用配置单元将数据插入到hbase表中。我已经创建了表:CREATETABLEhbase_table_emp(idint,namestring,rolestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:name,cf1:role")TBLPROPERTIES("hbase.table.name"="emp");并将数据加

时出配置单 hive java hadoop hbase

json - 在配置单元中配置对象时出错

我正在尝试使用推文和hadoop中的配置单元制作一个情感分析项目。我在tweetsjson格式之上创建了一个表，我可以在查询SELECT*FROMTWEETS后查看推文；然后我创建了以下View，但这不是在查询中检索数据Select*fromtweet_simple;hive>CREATEVIEWtweets_simpleAS>SELECT>id,>cast(from_unixtime(unix_timestamp(concat('2014',substring(created_at,5,15)),'yyyyMMMddhh:mm:ss'))astimestamp)ts,>text,>u

时出配置单 201503010134 hadoop java json twitter hive hiveql

hadoop - 无法将数据加载到配置单元中的分区表中

我无法将数据加载到分区表中，因为它显示“动态分区严格模式需要至少一个静态分区列。要关闭此功能，请设置hive.exec.dynamic.partition.mode=nonstrict“即使在设置sethive.exec.dynamite.partition.mode=nonstrict时也会出现上述错误；配置单元>设置hive.exec.dynamite.partition=true;这些参数我得到了同样的错误。请建议我更好的解决方案。提前致谢；最佳答案你有各种各样的错别字(还有一种很有趣的把事情搞砸的倾向):hive.exe

配置单 hadoop section partition strong

hadoop - 替换配置单元中的 NULL

我在配置单元中有一个表，其中包含以“null”作为数据的列。我想用“N/A”替换“null”尝试使用COALESCE(col_name,'N/A')但它不起作用我用了if并且有效if(col_name='null','N/A',col_name)我在列中有百万个值，这个“如果”会影响性能吗？如果是，处理这种情况的最佳方法是什么？请建议最佳答案使用IF条件不会影响您的性能。无论您选择什么条件函数(CASE、NVL、IF等)，它都需要遍历所有记录以检查该条件。继续使用IF条件关于had

配置单 hadoop section col_name hive

sql - 如何在配置单元中选择计数和文字值

为什么此查询返回错误。我试图将表的代码作为常量字符串加载，数据的标志再次作为常量字符串，插入时间和表的计数。我想，让我在编写插入内容之前尝试运行secelct。但出于某种原因，它无法列出我试图从中获取计数的表中的列名。我只需要两个常量值，一个日期和一个计数。也尝试删除groupby，引发另一个错误。hive-e“选择“WEB”作为src_cd，“1Hr”作为Load_Flag，from_unixtime((unix_timestamp(substr(sysDate,0,11),'dd/MMM/yyyy')),'MM/dd/yyyy')作为时间，计数(*)来自博客其中年=2015月=04

配置单和文 section 39 yyyy sql hadoop mapreduce hive hortonworks-data-platform

hadoop - 从配置单元中删除表不起作用

我想从表A中删除列c大于表B的列c的行我试过了delete*fromAwhereA.p>=(selectmax(t.c)fromBt)但它不起作用。我怎样才能做到这一点？最佳答案 INSERT...VALUES、UPDATE和DELETE语句需要hive-site.xml配置文件中的以下属性值:hive.enforce.bucketingtruehive.exec.dynamic.partition.modenonstrict更新相应的hive-site.xml中的配置后，重新启动服务–HiveServer2和HiveMetast

配置单 hadoop section code pre hive

49 50 515253 54 55