$hive

mongodb - 使用 MongoDB 的 Hive 表映射

在这里，我尝试使用hiveql执行mapreduce操作，它适用于选择查询，但它为某些聚合和过滤操作抛出一些异常，请帮助我解决它。我已经在适当的地方添加了mongo-hadoopjarhive>从用户中选择*；好的1汤姆282爱丽丝183鲍勃29hive>select*fromuserswhereage>=20;MapReduce作业总数=1启动Job1outof1由于没有reduce运算符，reduce任务数设置为0KillCommand=/home/administrator/hadoop-2.2.0//bin/hadoopjob-killjob_1398687508122_000

hadoop - 来自 Hive UDF 内部的 SQL

是否可以从HiveUDF内部对Hive本身执行Sql？我试着用下面的代码片段来做:Class.forName("org.apache.hadoop.hive.jdbc.HiveDriver");Connectioncon=DriverManager.getConnection("jdbc:hive://localhost:10000/default","","");但这给了我一个连接被拒绝的错误，而我能够从机器本身远程登录到端口。最佳答案 HiveUDF在任务节点上执行。除非您在每个任务节点上运行配置单元服务器(希望不是)，否则将

hadoop Hive section 10000

hadoop - HIVE 查询与 Hadoop 提供的 mapreducer 数量之间的关系？

我在HIVEshell中执行一个查询SELECTtradeId,bookid,foidfromtradeswherebookid='"ABCDEFG"'"trades"表在bookid上有索引。当查询运行时，它显示Mappers和Reducers的详细信息如下:-Numberofreducetasksissetto0sincethere'snoreduceoperatorHadoopjobinformationforStage-1:numberofmappers:48;numberofreducers:0Timetaken:**606.183seconds**,Fetched:**18

mapreducer hadoop section code strong mapreduce hive

hadoop - 在 Hadoop Hive Pig 场景中需要专家帮助

我还在学习Hadoop的过程中，遇到过一个具体的情况:我有两个表，mySQL中的第一个表A包含列:电子邮件和地址，而第二个表B在HDFS中包含列:id、电子邮件和地址。我必须在两个表中查找电子邮件，并使用表A中的新行更新表B(表B中不存在的电子邮件是表A中的新记录条目，因此必须在表B中移动).我可以使用Pig或Hive脚本来解决这个问题吗？有人可以帮我解决这个问题吗？最佳答案目前将MySql表加载到HDFS需要使用Sqoop或自定义加载UDF进行一些努力。看这个SOLink一旦您在HDFS中拥有数据，只需执行左(或右)连接并获取

hadoop section stackoverflow questions hive apache-pig

database - 使用不同长度的行在 Hive 中加载 CSV 文件

如何在Hive中加载每行具有不同列数的CSV文件？问题是每一行都有未定义的字段数，否则我会创建一个表，其中包含我的CSV可以拥有的最大字段数...字段1到5将始终存在。然而，字段6到Infinity可能并不总是存在。一个可能可以接受的解决方案是在Hive中导入文件时将字段6连接到Infinity。这可能吗？这里是我的CSV文件的示例，以明确说明:data11;data12;data13;data14data21;data22;data23;data24;data25data31;data32;data33;data34;data35;data36data41;data42;data43

中加 database data regexp_extract section database-design hadoop hive hiveql

sql - Hive 在简单的选择查询中不返回任何结果

我有一个名为processed的表。最后一列命名为monthid。此列的数据类型是bigint。当我发出这样一个简单的查询时，我没有得到任何结果:select*fromprocessedwheremonthid=5;下面显示了表格的几行。有人可以建议这里出了什么问题吗？11741Negative1169.5514011729194827511741Negative11102.014011729974827511741Negative11145.7814011730934827511741Negative1170.5414011731374927511741Negative1185.21

Hive sql code section Negative hadoop

hadoop - 时间戳在 hive 中不起作用

我有一个表，其中一列数据类型为“时间戳”。每当我尝试对表进行一些查询时，即使是简单的选择语句也会出错。我专栏中一行的示例，'2014-01-0105:05:20.664592-08'我正在尝试的语句，'select*frommytablelimit10;'我得到的错误是'Failedwithexceptionjava.io.IOException:java.lang.NumberFormatException:Forinputstring:"051-08000"'配置单元中的日期函数(如TO_DATE)也不起作用。如果我将数据类型更改为字符串，我可以使用子字符串提取日期部分。但我需要使

hadoop hive section code pre hiveql

hadoop - hive 或 impala 中没有加载表

我在Centos6.5上使用CDH5，当我浏览到查询编辑器>Hive或Impala时，左侧的表格部分和一个等待微调器一起坐在那里。有可用的表，因为我可以从配置单元cli查询它们，它从不加载表，有人能指出我正确的方向吗？最佳答案我认为没有食谱解决方案，我会采取以下行动确保Hive可以从hiveshell列出表和查询值，如果在看到它们之前不重新配置hive确保impala-shell可以列出表和查询值，如果不能重新配置impala，直到看到它们为Hue查询编辑器重复阶段1和2小提示:有关实际错误的更多数据可能会在子系统的日志中找到

hadoop impala section stackoverflow hive cloudera cloudera-cdh

hadoop - 为什么会有 Pig 和 Hive

我了解Hadoop的组件是什么，但我的问题是:作为最终用户，我如何才能在不担心数据存储的情况下访问Hadoop中的文件？那么在使用Pig/Hive命令时，我应该担心数据存储是HDFS还是HBase？谢谢最佳答案首先，HDFS是一个文件系统，而HBase是一个数据库，所以是的，您应该考虑到这一点，因为您访问它们的方式不同。知道这一点后，Pig和Hive让您比在纯Java中更容易访问数据。例如，Hive允许您以接近SQL的方式查询HBase。同样，您可以像在标准机器上使用shell一样使用pig浏览和管理文件。总而言之，您不应该担心

hadoop Hive section strong HBase apache-pig hdfs

sql - 仅将更新的记录从 SQL 导入到 Hive

因为我们有一个包含2列的表，让我们假设在SQL中(我们在SQL源表中没有任何created_date、Updated_date、Flag列，也不要修改源表)idisprimarykeyidname1AAAAA2BBBBB3CCCCC4ADAEAB5GGAGAG我使用sqoop将数据作为主表拉入配置单元，没问题但是如果源数据像下面这样更新idname1ACACA2BASBA3CCHAH4AASDA15GGAGAG问题:MyIssueisthatwithouteffectingtheMaintabledatainhiveineedtopulltheUpdatedorInsertedorDe

Hive sql table section code hadoop hbase sqoop

179 180 181182183 184 185