草庐IT

hadoop - 如何从 CDH 5.4.4 上的 Spark 查询 Hive

我正在运行CDH5.4.4(它捆绑了Spark1.3.0)并希望将Hive表读入Spark数据帧。查看文档,建议我们可以执行以下操作:frompyspark.sqlimportHiveContextsqlContext=HiveContext(sc)results=sqlContext.sql("SHOWTABLES").collect()...假设Spark是使用-Phive和-Phive-thriftserver标志集构建的。我不确定Cloudera的构建是否设置了这些标志。当我运行代码片段时,它返回以下错误:15/07/1016:54:10WARNHiveMetaStore:Re

hadoop - Sqoop 导入错误 : UnsupportedClassVersionError CDH 5. 16

我在rhel7系统上运行CDH5.16。我使用软件包安装了CDH。当我尝试从位于远程服务器的MySQL服务器运行Sqoop导入作业时,出现以下错误:Warning:/usr/lib/sqoop/../accumulodoesnotexist!Accumuloimportswillfail.Pleaseset$ACCUMULO_HOMEtotherootofyourAccumuloinstallation.19/06/0318:39:43INFOsqoop.Sqoop:RunningSqoopversion:1.4.6-cdh5.16.119/06/0318:39:43WARNtool.

hadoop - CDH5 上的启动/停止 hadoop hdfs/mapred 脚本在哪里

CDH4的文档引用了/etc/init.d/hadoop-*脚本,但这些在CDH5中不再存在。我已经仔细阅读了文档,但未能成功找到/理解什么是CDH5等价物。我能找到的最接近的是SCM经理:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM5/latest/Cloudera-Manager-Administration-Guide/cm5ag_agents.html将不胜感激新流程(/es)的指针和解释。 最佳答案 我在Cloudera用户的邮件列表上收

java - 无法通过 Java API 访问 HDFS (Cloudera-CDH4.4.0)

我正在尝试使用Java代码访问我的HDFS,但我无法让它工作...经过2天的挣扎,我认为是时候寻求帮助了。这是我的代码:Configurationconf=newConfiguration();conf.addResource(newPath("/HADOOP_HOME/conf/core-site.xml"));conf.addResource(newPath("/HADOOP_HOME/conf/hdfs-site.xml"));FileSystemhdfs=FileSystem.get(conf);booleansuccess=hdfs.mkdirs(newPath("/user

hadoop - 是否有 Hive on Hue (CDH 5.9.3) 的配置设置限制可以使用的容器数量?

这是我们小组中的一个普遍问题,我们的Hive查询经常扩展以消耗我们CDH集群上的大部分可用YARN执行程序和内存。虽然潜在的问题在于我们表中的分区数量和连接的复杂性,但我们不能随意重建这些表。我们可以通过配置spark.dynamicAllocation.maxExecutors和spark.executor.memory来控制Spark中的资源消耗。我们是否可以在Hue上使用类似的东西,以便Hue能够与集群上的其他作业“很好地配合”? 最佳答案 是的,您可以更好地管理从Hue启动的Hive查询中使用的Hadoop集群计算资源的数量

hadoop - Cloudera CDH4 : Can't add a host to my cluster because canonical name is not consistent with hostname

我正在使用Ubuntu12.04LTS在4节点集群上安装CDH4。我能够安装cloudera管理器并在主机上启动单节点集群。但是,一旦我添加了一个新主机,CM就会说它运行状况不佳并抛出以下错误:“从Java进程检查时,此主机的主机名和规范名称不一致。”我修改了master和所有主机上的/etc/hosts的内容,以包含IP地址,后跟每台机器的FQDN。我是否还需要设置一个DNS服务器才能完成这项工作? 最佳答案 您不一定需要设置DNS服务器才能使其正常工作,但正向和反向DNS必须明确匹配Hadoop才能正常运行。Hadoop操作书有

r - 在 Cloudera CDH4 上编译 R 包时 GCC 出错

我正在尝试在Cloudera的CDH4HadoopVM上安装RHadoop。RHadoop是一个通过R编程接口(interface)使用Hadoop的框架。安装RHadoopR包“rmr”的先决条件之一是另一个名为Rcpp的R包,它用于从R调用C++代码。当我尝试安装该包时,出现以下错误。我联系了Rcpp和RHadoop社区,他们都说这是一个GCC问题。当我尝试更新或重新安装GCC时,我得到“软件包gcc-4.4.6-4.e16.x86_64已安装且为最新版本,无需执行任何操作。”有什么建议吗?这是错误(来自R命令行)。>install.packages("Rcpp")Installi

java - 使用CDH4伪分布式模式在WordCount.java中编译错误

我刚刚从示例目录中复制了WordCount.java源代码,我正在尝试编译它。但是我收到了错误WordCount.java:61:error:cannotaccessOptionsString[]otherArgs=newGenericOptionsParser(conf,args).getRemainingArgs();^classfilefororg.apache.commons.cli.Optionsnotfound1error我没有更改代码中的任何内容。 最佳答案 将commons-cli-1.2.jar添加到您的类路径中。

hadoop - Cloudera CDH VM 默认 HADOOP_HOME 位置

ClouderaCDH4VM中的默认HADOOP_HOME位置是什么。echo$HADOOP_HOME返回空白。 最佳答案 /usr/lib/hadoop是CDH4中的默认HADOOP_HOME。关于弃用,HADOOP_PREFIX似乎是HADOOP_HOME的替代品:$HADOOP_HOMEisdeprecated我相信HADOOP_MAPRED_HOME仅用于mapreduce基础设施,如果您直接使用HDFS,那么您可能需要HADOOP_PREFIX。 关于hadoop-Cloude

java - 我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

我的cdh5.2集群无法运行hbaseMR作业。例如,我将hbase类路径添加到hadoop类路径中:vi/etc/hadoop/conf/hadoop-env.sh添加行:exportHADOOP_CLASSPATH="/usr/lib/hbase/bin/hbaseclasspath:$HADOOP_CLASSPATH"当我运行时:hadoopjar/usr/lib/hbase/hbase-server-0.98.6-cdh5.2.1.jar行计数器“我的表”我得到以下异常:14/12/0903:44:02WARNsecurity.UserGroupInformation:Priv