我在hadoop集群上使用Hive。每当我尝试运行配置单元查询时,它总是显示为HadoopjobinformationforStage-1:numberofreducers:1我使用了以下Hive配置:hive.exec.reducers.bytes.per.reducer=1000000000hive.exec.reducers.max=999请告诉我如何增加reducer的数量。谢谢。 最佳答案 确保您已完成以下几点:您的mapred.reduce.tasks默认为-1。通过将此属性设置为-1,Hive将自动计算出reducer
Hive使用的默认JOIN类型是什么?我知道Pig默认执行哈希连接。 最佳答案 Hive默认支持equi连接。您可以根据表的大小和排序顺序使用Map-sideJoin或MergeJoin来优化您的连接。查看此帖子了解更多详情:Hadoop'sMap-sidejoinimplementsHashjoin?更多详情:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins 关于hadoop-Hive使用的默认J
这按预期工作:DROPTABLEmytable;CREATEEXTERNALTABLEmytable(Dim1STRING,Dim2STRING,Dim3STRING)LOCATION'hdfs:///user/myuser/data';但这不是:setrootpath='hdfs:///user/myuser/data';DROPTABLEmytable;CREATEEXTERNALTABLEmytable(Dim1STRING,Dim2STRING,Dim3STRING)LOCATION'${hiveconf:rootpath}';失败并出现以下错误(Hive0.9.0):FAIL
我在尝试导出分区的Hive表时遇到了一些问题。这是否得到完全支持(我尝试用谷歌搜索并找到了一张JIRA票)?sqoopexport--connectjdbc:mysql://localhost/testdb--tablesales--export-dir/user/hive/warehouse/sales--direct这是我得到的:00000_2,Status:FAILEDjava.io.FileNotFoundException:Filedoesnotexist:/user/hive/warehouse/sales/day=2013-04-01运行hadoopfs-ls/user/
我们对Hadoop和Hive还很陌生。我们创建了普通的Hive表并加载了数据。但是当我们使用JSON格式在Hive中创建表时,我们遇到了问题。我也添加了serdejar。我们收到以下错误:createtableairline_tables(Airlinestring,Airlineidstring,Sourceairportstring,Sourceairportidstring,Destinationairportstring,`Destinationairportidstring,Codesharestring,Stopstring,EquipmentString)`ROWFORM
我正在运行ClouderaManager(免费版),我到达了向导创建HiveMetastore数据库的地步。显示此错误并停止配置过程。使用/var/run/cloudera-scm-agent/process/40-hive-metastore-create-tables/hadoop-conf作为HADOOP_CONF_DIR我似乎找不到任何可能导致此问题的信息?到目前为止,一切都已正确配置,安装的一切以及用户名和密码都是正确的。有人以前见过这个错误吗?想法?错误日志:atsun.reflect.DelegatingConstructorAccessorImpl.newInstanc
我的Hive查询抛出此异常。HadoopjobinformationforStage-1:numberofmappers:6;numberofreducers:12013-05-2212:08:32,634Stage-1map=0%,reduce=0%2013-05-2212:09:19,984Stage-1map=100%,reduce=100%EndedJob=job_201305221200_0001witherrorsErrorduringjob,obtainingdebugginginformation...ExaminingtaskID:task_201305221200_
我正在使用4个核心节点..我正在使用配置单元对表运行查询。各种查询似乎都没有充分利用容量。我的表由8个整数字段和大约1000行组成。表单查询从表中选择avg(col1-col2);从表中选择计数(*);以及我尝试过的所有其他查询正在生产缩减器数量=1,映射器数量=1我试过使用setmapred.reduce.tasks=4;但它不起作用。最奇怪的是,当我使用mapred.job.tracker=local时,这意味着在本地节点本身上有一个map和一个reduce,任务完成速度快了一倍。除了一个之外,所有的reduce/mapslots都一直打开。为什么即使增加容量也不能稍微改善执行时间
我有一些像这样的url:foo.netabcd.comhttp://www.abc.com/video/ygrefhcbauklyhttp://xyz.com/video/lwriey/ew4defparse_url((url),'HOST')我尝试了上面的配置单元UDF,我得到这样的o/p:/N/Nwww.abc.comxyz.com我也想显示前2个url。如何为以下o/p编写配置单元脚本?foo.netabcd.comabc.comxyz.com 最佳答案 有几个选项你可以试试a)您可以使用case语句。当parse_url((
无论如何,我是否可以安装唯一没有cloudera管理器和cdh的impala。我将使用hadoop的apache版本? 最佳答案 是的,这是绝对可能的。将存储库添加到您的sources.list文件中,然后更新存储库。deb[arch=amd64]http://archive.cloudera.com/impala/ubuntu/precise/amd64/impalaprecise-impala1contribdeb-srchttp://archive.cloudera.com/impala/ubuntu/precise/amd6