草庐IT

hadoop - CDH5 hdfs 平衡器错误

运行“hdfsbalancer”,我确实看到它显示了安装的机架拓扑、过度使用和未充分使用的节点,它说“需要移动5TB以使集群平衡”和“决定从10.150移动10GB字节.11.24:50010到10.150.11.164:50010"然后我看到这个错误,WARNbalancer.Balancer:Dispatcherthreadfailedjava.lang.NullPointerExceptionatorg.apache.hadoop.hdfs.server.balancer.Balancer.isGoodBlockCandidate(Balancer.java:1233)atorg

hadoop - "Child Error"in Executing stream Job on multi node Hadoop cluster (cloudera distribution CDH3u0 Hadoop 0.20.2)

我在8节点Hadoop集群上工作,我正在尝试使用指定的配置执行一个简单的流作业。hadoopjar/usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.20.2-cdh3u0.jar\-Dmapred.map.max.tacker.failures=10\-Dmared.map.max.attempts=8\-Dmapred.skip.attempts.to.start.skipping=8\-Dmapred.skip.map.max.skip.records=8\-Dmapred.skip.mode.enabled=tru

hadoop hbase cdh4 作业启动失败,出现权限错误

在CDH4生态系统中,我正在尝试将mapreduce作业输出到hbase表。由于某种原因,它在配置设置的addDependencyJars调用期间失败。据我所知,hbase配置没有选择hadoop配置(请参阅作业输出中的警告)。我提供了hdfs-site.xml、作业配置、带堆栈跟踪的作业输出和文件权限。任何有关如何进一步调试的帮助或见解将不胜感激。hdfs-site.xmldfs.permissions.enabledfalsedfs.permissions.superusergrouphadoopdfs.namenode.name.dir/var/hadoop/namenodedf

hadoop - Cloudera 的 CDH4 WordCount hadoop 教程 - 问题

我正在学习本教程:http://www.cloudera.com/content/cloudera-content/cloudera-docs/HadoopTutorial/CDH4/Hadoop-Tutorial/ht_topic_5_2.html内容如下:javac-cpclasspath-dwordcount_classesWordCount.javawhereclasspathis:CDH4-/usr/lib/hadoop/*:/usr/lib/hadoop/client-0.20/*CDH3-/usr/lib/hadoop-0.20/hadoop-0.20.2-cdh3u4-

hadoop - CDH Hadoop 中 json Serde JAR 与 Hive/Hue/MapReduce 一起使用的最佳位置

我正在使用Hive/Hue/MapReduce和jsonSerde。为了让它工作,我将json_serde.jar复制到每个集群节点上的几个lib目录:/opt/cloudera/parcels/CDH/lib/hive/lib/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/lib/opt/cloudera/parcels/CDH/lib/hadoop/lib/opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/lib...在集群的每次CDH更新中,我都必须再次执行此操作。是否有更优雅的方式

hadoop - Hive 0.12 和 Hadoop 2.2.0-cdh5.0.0-beta2 的 SerDe 问题

标题有点奇怪,因为我很难缩小问题的范围。我在Hadoop2.0.0-cdh4.4.0和hive0.10上使用我的解决方案没有问题。我无法使用此SerDe创建表:https://github.com/rcongiu/Hive-JSON-Serde第一次尝试:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.org.apache.hadoop.hive.serde2.objectinspector.primitive.AbstractPrimitiveJavaObjectInspector

java - CDH5.2 : MR, 无法初始化任何输出收集器

ClouderaCDH5.2快速启动虚拟机ClouderaManager显示所有节点状态=绿色我已经在Eclipse上创建了一个MR作业,包括构建路径中的所有相关的clouderajar:avro-1.7.6-cdh5.2.0.jar,avro-mapred-1.7.6-cdh5.2.0-hadoop2.jar,hadoop-common-2.5.0-cdh5.2.0.jar,hadoop-mapreduce-client-core-2.5.0-cdh5.2.0.jar我已经运行了以下作业hadoopjarjproject1.jaravro00.AvroUserPrefCount-li

java - Hadoop CDH5 中的垃圾收集持续时间

我们有一个运行CDH5.0.2的四数据节点集群,通过ClouderaManager包裹安装。为了将13M用户的行导入HBase,我们编写了一个简单的Python脚本并使用了hadoop-streamingjar。它按预期工作高达100k行。然后......然后,一个接一个,所有数据节点崩溃并显示相同的消息:ThehealthtestresultforREGION_SERVER_GC_DURATIONhasbecomebad:Averagetimespentingarbagecollectionwas44.8second(s)(74.60%)perminuteoverthepreviou

hadoop - 附加到 HDFS 中的文件 (CDH 5.4.5)

这里是HDFS的全新内容。我有一小段代码来测试附加到文件:valpath:Path=newPath("/tmp","myFile")valconfig=newConfiguration()valfileSystem:FileSystem=FileSystem.get(config)valoutputStream=fileSystem.append(path)outputStream.writeChars("what'sup")outputStream.close()失败并显示此消息:Notsupportedjava.io.IOException:Notsupportedatorg.ap

eclipse-plugin - Hadoop CDH4 和 Eclipse Juno

有没有人成功地针对CDH4安装为Juno构建了一个eclipse插件?我在网上看到了CDH3。寻找CDH4。非常感谢。 最佳答案 我不确定您指的是HadoopEclipse插件还是针对CDH4开发代码的插件。我会回答这两个问题。在Juno中针对CDH4进行开发:到目前为止,在Eclipse(任何版本)中针对CDH4组件编写应用程序的最简单方法是使用m2eclipse[1]并将ClouderaMaven存储库添加到您的pom.xml。事实上,Cloudera的很大一部分人(包括我自己)经常这样做。最近,我们的一位工程师(Natty)写