草庐IT

HADOOP_OPTS

全部标签

hadoop - 如何将 Hadoop MapReduce 作业的输出作为值/键而不是键/值返回?

例如,典型的WordCountmapreduce可能会返回如下输出:hello3world4again1我想对输出进行稍微不同的格式化,以便它显示为:3hello4world1again我读过很多想要按值排序的帖子,答案建议在第一个输出上进行第二个mapreduce作业。但是,我不需要按值排序,并且多个键可能具有相同的值——我不希望将它们混为一谈。有没有一种简单的方法可以简单地切换键/值的打印顺序?看起来应该很简单。 最佳答案 按难易程度顺序考虑的两个选项是:在Reduce中切换Key/Value修改reduce的输出以切换键和值。

Hadoop 安装问题

使用ubuntu在oraclevirtualbox上安装hadoop后,一切正常。但是当我在浏览器上运行localhost:50070时,我在右下角得到了namenodehealth而不是LegacyUI选项,通过它我可以浏览文件系统。知道为什么吗? 最佳答案 可能您已经安装了Hadoop2.7.x,检查此修复以从NamenodeUI中删除LegacyUI选项-https://issues.apache.org/jira/browse/HDFS-6657此外,您现在应该在“浏览文件系统”下有一个名为“实用程序”的下拉菜单项。

hadoop - 将 MapR 安装到 20 节点集群的分步过程

我想知道将MapR安装到20节点集群上的分步过程,我还想拥有一个边缘节点。我没有使用Edge节点安装任何hadoop发行版。请帮忙。 最佳答案 你应该看看MapRinstalldocumentation.他们还有一个易于使用的UIinstaller. 关于hadoop-将MapR安装到20节点集群的分步过程,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/41163466/

hadoop - 插入分桶表产生空表

我正在尝试插入分桶表。当我运行查询时,一切看起来都很好,我在报告中看到了一些写入的字节数。Hive日志中也没有任何错误。但是当我查看表格时,我什么都没有:(创建表测试(测试日期字符串,test_id字符串,test_title字符串,)聚类为(文本日期)进入100个桶行格式分隔由“|”终止的字段由'\n'终止的行存储为兽人地点'hdfs://myserver/data/hive/databases/test.db/test'TBL属性('skip.header.line.count'='1','交易'='真')插入测试.test从test2.green中选择“test_date”、“t

hadoop - 并行停用多个 Hadoop DataNode

我要更换HadoopCDH5.7集群中的多台机器。我首先添加了一些新机器并停用了相同数量的现有数据节点。我注意到在停用节点时block被标记为复制不足。这是否意味着我在停用多个节点时会面临风险?我可以并行停用所有节点吗?有没有更好的方法来更换所有机器?谢谢! 最佳答案 很明显,当一个节点关闭(或删除)时,数据复制不足。当您添加新节点并重新平衡时,这将自动修复。实际发生了什么?假设集群上的复制因子是3。当一个节点退役时,存储在其上的所有数据都消失了,该数据的复制因子现在是2(因此处于复制状态)。现在,当您添加一个新节点并重新平衡时,丢

hadoop - Hbase Scan 返回超出范围的数据

我正在使用HBaseshell在HBase扫描中使用startRowKey和StopRowKey进行扫描,但我收到的输出超出了传递的范围。请引用Hbase查询-importorg.apache.hadoop.hbase.filter.CompareFilterimportorg.apache.hadoop.hbase.filter.SingleColumnValueFilterimportorg.apache.hadoop.hbase.filter.SubstringComparatorimportorg.apache.hadoop.hbase.util.Bytesscan'Table

hadoop - 配置单元:dfs copyToLocal 给出 "org.apache.hive.service.cli.HiveSQLException: Error while processing statement: null"

我正在尝试从.hql文件执行“copyToLocal”,如下所示:dfs-copyToLocalhdfs://nameservice1/HDFS_FOLDER1/HDFS_FOLDER2/file_name.dat/LOCAL_FOLDER1/LOCAL_FOLDER2/;但是我得到了下面提到的异常:Error:Errorwhileprocessingstatement:null(state=,code=1)org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:nullatorg.apach

java - Hadoop "Could not find or load main class com.sun.tools.javac.Main"

在我的问题作为重复问题被关闭之前:我查看了所有其他相关问题,但提供的解决方案对我不起作用,可能是因为我使用的是Cygwin,而不是Unix。我正在试用教程here.每当我运行命令(在c:/hadoop中)bin/hadoopcom.sun.tools.javac.MainWordCount.java时,我都会收到错误Couldnotfindorloadmainclasscom.sun.tools.javac.Main.我的Java_Home变量设置为:c:/PROGRA~1/Java/jdk1.7.0_17(echo$JAVA_HOME确认了这一点),和我的HADOOP_CLASSPA

hadoop - 如何配置 hadoop rpc 的超时时间?

我的应用程序使用hadoop的rpc在分布式环境中远程发送/接收请求。org.apache.hadoop.ipc.RPC;org.apache.hadoop.ipc.RPC.Server;....this.server=RPC.getServer(this,this.peerAddr.getHostName(),this.peerAddr.getPort(),this.conf);this.server.start();随着任务越来越重,我观察到由于IOException(这可能是由线程中断引起的)导致的任务失败频繁。我怀疑异常是由某种RPC超时引起的。如何调整hadoop中RPC的超

hadoop - context.write() 方法中的 NullWritable

我如何才能在我的context.write()方法中只放入值。我不想在我的文本文件中写入key,所以我不想在我的context.write()方法中发出key。这是我的映射器代码:publicclassMyMapperextendsTableMapper{privatefinalIntWritableONE=newIntWritable(1);privateTexttext=newText();publicvoidmap(ImmutableBytesWritablerow,Resultvalue,Contextcontext)throwsIOException,InterruptedE