我在Hadoop集群中遇到一个问题。我有一个包含5个数据节点和一个边缘/网关节点的Hadoop集群。我的问题是我必须在每个节点(1个名称节点和5个数据节点)中启动历史服务器,以从hadoopwebUI获取任何提交作业的作业历史记录。我在mapred-site.xml中添加了mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address但我猜它不能正常工作。如果我仅在名称节点或任何其他节点中启动历史服务器,HadoopClusterWeb-UI将无法向我显示作业历史记录并以一些错误结束。我的映射站点XMLmapred.jo
已解决:原来是我的UDTF出错了。我找到了一个修复程序,但我不太明白为什么它会起作用。当初我实现UDTF的时候,Eclipse提示initializeisdeprecated。但是如果我跳过它就会出错,所以我还是实现了它。我在那个方法里放了一个变量初始化,猜测init只做一次。该jar适用于一些更简单的场景,但如果我要将UDTF输出与UDF一起使用,则使用UDF输出来做一些事情,例如作弊的clusterby或insert,我得到了前面提到的错误。我的工程师friend发现initialize实际上被执行了不止一次。所以我只是将初始化放在process中,使用if检查变量是否为null,
这是我们小组中的一个普遍问题,我们的Hive查询经常扩展以消耗我们CDH集群上的大部分可用YARN执行程序和内存。虽然潜在的问题在于我们表中的分区数量和连接的复杂性,但我们不能随意重建这些表。我们可以通过配置spark.dynamicAllocation.maxExecutors和spark.executor.memory来控制Spark中的资源消耗。我们是否可以在Hue上使用类似的东西,以便Hue能够与集群上的其他作业“很好地配合”? 最佳答案 是的,您可以更好地管理从Hue启动的Hive查询中使用的Hadoop集群计算资源的数量
当使用ClouderaVM时,您如何访问HDFS中的信息?我知道没有到HDFS的直接路径,但我也不知道如何动态访问它。通过HiveCLI创建Hive表后,我尝试从位于HDFS中的文件加载一些数据:loaddatainpath'/test/student.txt'intotablestudent;但是我得到了这个错误:FAILED:SemanticExceptionLine1:17Invalidpath''/test/student.txt'':Nofilesmatchingpathhdfs://quickstart.cloudera:8020/test/student.txt我还尝试将
我正在使用Ubuntu12.04LTS在4节点集群上安装CDH4。我能够安装cloudera管理器并在主机上启动单节点集群。但是,一旦我添加了一个新主机,CM就会说它运行状况不佳并抛出以下错误:“从Java进程检查时,此主机的主机名和规范名称不一致。”我修改了master和所有主机上的/etc/hosts的内容,以包含IP地址,后跟每台机器的FQDN。我是否还需要设置一个DNS服务器才能完成这项工作? 最佳答案 您不一定需要设置DNS服务器才能使其正常工作,但正向和反向DNS必须明确匹配Hadoop才能正常运行。Hadoop操作书有
我已经基于来自CDH5.1.0的hadoop2.3.0设置了带有1个节点管理器、4个本地目录和4个日志目录等的YARNMapReduce迷你集群。它看起来或多或少有效。我未能实现的是来自容器的系统日志记录。我看到容器日志目录、stdout和stderr文件,但没有看到带有MapReduce容器日志记录的syslog。适当的stderr警告我没有log4j配置并且不包含任何其他字符串:log4j:WARNNoappenderscouldbefoundforlogger(org.apache.hadoop.metrics2.impl.MetricsSystemImpl).log4j:WAR
我正在尝试在Cloudera的CDH4HadoopVM上安装RHadoop。RHadoop是一个通过R编程接口(interface)使用Hadoop的框架。安装RHadoopR包“rmr”的先决条件之一是另一个名为Rcpp的R包,它用于从R调用C++代码。当我尝试安装该包时,出现以下错误。我联系了Rcpp和RHadoop社区,他们都说这是一个GCC问题。当我尝试更新或重新安装GCC时,我得到“软件包gcc-4.4.6-4.e16.x86_64已安装且为最新版本,无需执行任何操作。”有什么建议吗?这是错误(来自R命令行)。>install.packages("Rcpp")Installi
我刚刚从示例目录中复制了WordCount.java源代码,我正在尝试编译它。但是我收到了错误WordCount.java:61:error:cannotaccessOptionsString[]otherArgs=newGenericOptionsParser(conf,args).getRemainingArgs();^classfilefororg.apache.commons.cli.Optionsnotfound1error我没有更改代码中的任何内容。 最佳答案 将commons-cli-1.2.jar添加到您的类路径中。
ClouderaCDH4VM中的默认HADOOP_HOME位置是什么。echo$HADOOP_HOME返回空白。 最佳答案 /usr/lib/hadoop是CDH4中的默认HADOOP_HOME。关于弃用,HADOOP_PREFIX似乎是HADOOP_HOME的替代品:$HADOOP_HOMEisdeprecated我相信HADOOP_MAPRED_HOME仅用于mapreduce基础设施,如果您直接使用HDFS,那么您可能需要HADOOP_PREFIX。 关于hadoop-Cloude
我的cdh5.2集群无法运行hbaseMR作业。例如,我将hbase类路径添加到hadoop类路径中:vi/etc/hadoop/conf/hadoop-env.sh添加行:exportHADOOP_CLASSPATH="/usr/lib/hbase/bin/hbaseclasspath:$HADOOP_CLASSPATH"当我运行时:hadoopjar/usr/lib/hbase/hbase-server-0.98.6-cdh5.2.1.jar行计数器“我的表”我得到以下异常:14/12/0903:44:02WARNsecurity.UserGroupInformation:Priv