vm-cdh-cluster

hadoop - 我是否必须在所有节点中运行历史服务器才能在 Hadoop Cluster WebUI 中获取作业历史记录

我在Hadoop集群中遇到一个问题。我有一个包含5个数据节点和一个边缘/网关节点的Hadoop集群。我的问题是我必须在每个节点(1个名称节点和5个数据节点)中启动历史服务器，以从hadoopwebUI获取任何提交作业的作业历史记录。我在mapred-site.xml中添加了mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address但我猜它不能正常工作。如果我仅在名称节点或任何其他节点中启动历史服务器，HadoopClusterWeb-UI将无法向我显示作业历史记录并以一些错误结束。我的映射站点XMLmapred.jo

有节点中 gt lt property hadoop hadoop2 bigdata

hadoop - hive 查询 : Is there a way to use UDTF with `cluster by` ?

已解决:原来是我的UDTF出错了。我找到了一个修复程序，但我不太明白为什么它会起作用。当初我实现UDTF的时候，Eclipse提示initializeisdeprecated。但是如果我跳过它就会出错，所以我还是实现了它。我在那个方法里放了一个变量初始化，猜测init只做一次。该jar适用于一些更简单的场景，但如果我要将UDTF输出与UDF一起使用，则使用UDF输出来做一些事情，例如作弊的clusterby或insert，我得到了前面提到的错误。我的工程师friend发现initialize实际上被执行了不止一次。所以我只是将初始化放在process中，使用if检查变量是否为null，

cluster hadoop code section hive

hadoop - 是否有 Hive on Hue (CDH 5.9.3) 的配置设置限制可以使用的容器数量？

这是我们小组中的一个普遍问题，我们的Hive查询经常扩展以消耗我们CDH集群上的大部分可用YARN执行程序和内存。虽然潜在的问题在于我们表中的分区数量和连接的复杂性，但我们不能随意重建这些表。我们可以通过配置spark.dynamicAllocation.maxExecutors和spark.executor.memory来控制Spark中的资源消耗。我们是否可以在Hue上使用类似的东西，以便Hue能够与集群上的其他作业“很好地配合”？最佳答案是的，您可以更好地管理从Hue启动的Hive查询中使用的Hadoop集群计算资源的数量

可以使容器 code section Hive hadoop hue

hadoop - 在 Cloudera VM 中将数据从 HDFS 加载到 Hive Table

当使用ClouderaVM时，您如何访问HDFS中的信息？我知道没有到HDFS的直接路径，但我也不知道如何动态访问它。通过HiveCLI创建Hive表后，我尝试从位于HDFS中的文件加载一些数据:loaddatainpath'/test/student.txt'intotablestudent;但是我得到了这个错误:FAILED:SemanticExceptionLine1:17Invalidpath''/test/student.txt'':Nofilesmatchingpathhdfs://quickstart.cloudera:8020/test/student.txt我还尝试将

Cloudera hadoop code HDFS section hive cloudera-cdh cloudera-quickstart-vm

hadoop - Cloudera CDH4 : Can't add a host to my cluster because canonical name is not consistent with hostname

我正在使用Ubuntu12.04LTS在4节点集群上安装CDH4。我能够安装cloudera管理器并在主机上启动单节点集群。但是，一旦我添加了一个新主机，CM就会说它运行状况不佳并抛出以下错误:“从Java进程检查时，此主机的主机名和规范名称不一致。”我修改了master和所有主机上的/etc/hosts的内容，以包含IP地址，后跟每台机器的FQDN。我是否还需要设置一个DNS服务器才能完成这项工作？最佳答案您不一定需要设置DNS服务器才能使其正常工作，但正向和反向DNS必须明确匹配Hadoop才能正常运行。Hadoop操作书有

consistent canonical section amp 反向 hadoop ubuntu-12.04 cloudera

java - Yarn mini-cluster 容器日志目录不包含 syslog 文件

我已经基于来自CDH5.1.0的hadoop2.3.0设置了带有1个节点管理器、4个本地目录和4个日志目录等的YARNMapReduce迷你集群。它看起来或多或少有效。我未能实现的是来自容器的系统日志记录。我看到容器日志目录、stdout和stderr文件，但没有看到带有MapReduce容器日志记录的syslog。适当的stderr警告我没有log4j配置并且不包含任何其他字符串:log4j:WARNNoappenderscouldbefoundforlogger(org.apache.hadoop.metrics2.impl.MetricsSystemImpl).log4j:WAR

mini-cluster 容器 code section java hadoop mapreduce log4j hadoop-yarn

r - 在 Cloudera CDH4 上编译 R 包时 GCC 出错

我正在尝试在Cloudera的CDH4HadoopVM上安装RHadoop。RHadoop是一个通过R编程接口(interface)使用Hadoop的框架。安装RHadoopR包“rmr”的先决条件之一是另一个名为Rcpp的R包，它用于从R调用C++代码。当我尝试安装该包时，出现以下错误。我联系了Rcpp和RHadoop社区，他们都说这是一个GCC问题。当我尝试更新或重新安装GCC时，我得到“软件包gcc-4.4.6-4.e16.x86_64已安装且为最新版本，无需执行任何操作。”有什么建议吗？这是错误(来自R命令行)。>install.packages("Rcpp")Installi

上编 Cloudera include D_FORTIFY_SOURCE fstack-protector r gcc hadoop rcpp

java - 使用CDH4伪分布式模式在WordCount.java中编译错误

我刚刚从示例目录中复制了WordCount.java源代码，我正在尝试编译它。但是我收到了错误WordCount.java:61:error:cannotaccessOptionsString[]otherArgs=newGenericOptionsParser(conf,args).getRemainingArgs();^classfilefororg.apache.commons.cli.Optionsnotfound1error我没有更改代码中的任何内容。最佳答案将commons-cli-1.2.jar添加到您的类路径中。

java WordCount section code commons hadoop cloudera word-count

hadoop - Cloudera CDH VM 默认 HADOOP_HOME 位置

ClouderaCDH4VM中的默认HADOOP_HOME位置是什么。echo$HADOOP_HOME返回空白。最佳答案 /usr/lib/hadoop是CDH4中的默认HADOOP_HOME。关于弃用，HADOOP_PREFIX似乎是HADOOP_HOME的替代品:$HADOOP_HOMEisdeprecated我相信HADOOP_MAPRED_HOME仅用于mapreduce基础设施，如果您直接使用HDFS，那么您可能需要HADOOP_PREFIX。关于hadoop-Cloude

HADOOP_HOME Cloudera code HADOOP section

java - 我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

我的cdh5.2集群无法运行hbaseMR作业。例如，我将hbase类路径添加到hadoop类路径中:vi/etc/hadoop/conf/hadoop-env.sh添加行:exportHADOOP_CLASSPATH="/usr/lib/hbase/bin/hbaseclasspath:$HADOOP_CLASSPATH"当我运行时:hadoopjar/usr/lib/hbase/hbase-server-0.98.6-cdh5.2.1.jar行计数器“我的表”我得到以下异常:14/12/0903:44:02WARNsecurity.UserGroupInformation:Priv

时出 FileNotFoundException java hadoop apache mapreduce hbase cloudera-cdh

79 80 818283 84 85