vm-cdh-cluster

hadoop - copyFromLocalFile 在 CDH4 中不起作用

我已经在亚马逊云(1台服务器)的ubuntu12LTS服务器上成功安装了CDH4。我使用ClouderaManager免费版安装软件并且没有错误)。我有一个程序使用javaAPI将文件从我的家用计算机加载到云中的HDFS。我想知道为什么这个程序失败以及如何修复它。Configurationconf=newConfiguration();conf.set("fs.defaultFS","hdfs://node01:8020");FileSystemfs=FileSystem.get(conf);PathtargetPath=newPath("/users//myfile.txt");Pa

hadoop - RHive 不支持 CDH4

有没有人试过让RHive与cdh4一起工作？它与cdh4兼容吗？我试过在他们的谷歌群组上问这个问题，但还没有答案!我已经在cdh4上安装了R、RHadoop和所有相关的软件包，但我仍然停留在RHive。对所有环境变量使用cdh4，rhive.connect()给我以下错误-WARNconf.Configuration:fs.default.nameisdeprecated.Instead,usefs.defaultFSErrorin.jfindClass(as.character(class)):classnotfound有什么想法/建议吗？谢谢，外婆最佳

hadoop - CDH4 : Version conflict: Found interface org. apache.hadoop.mapreduce.Counter，但类是预期的

我正在尝试从CDH3升级到CDH4，但从编译到运行时遇到版本冲突。我收到此错误:线程“主”java.lang.IncompatibleClassChangeError中的异常:找到接口(interface)org.apache.hadoop.mapreduce.Counter，但类是预期的从谷歌搜索看来，我的代码是针对Hadoop1.x编译的，并在Hadoop2.0上运行。我正在同一个Hadoop客户端上编译和运行该应用程序，因此它应该都是Hadoop2.0。这是我在客户端或此测试集群中的任何其他节点上运行“hadoop版本”所获得的结果:Hadoop2.0.0-cdh4.4.0颠覆文

java - CDH4、Sqoop2 和 JDBC 驱动程序 : no suitable driver found

我正在尝试使用Sqoop2将数据从MySQL数据库导入HDFS，基本上遵循说明here.但是，由于找不到合适的驱动程序，Sqoop服务器无法连接到MySQL数据库。设置:这是我的设置的一些背景:Hadoop集群:我有一个运行CDH4.4.0的三机Hadoop集群。Sqoop2是通过ClouderaManager配置的，与Namenode运行在同一台机器上。我正在Windows机器上开发，这也是我的MySQL数据库所在的位置。Hadoop集群是一组三台Ubuntu服务器机器。MySQL数据库:我的Windows机器上运行着一个MySQL数据库，我已经检查过可以从我的Hadoop集群中的每

eclipse - 连接到 Eclipse 中的 Hortonworks VM 以进行 MapReduce 作业的 ConnectTimeoutException？

我正在尝试在Eclipse中运行MapReduce作业。我正在尝试连接到HortonworksVM并读取HDFS中的文件之一。这是HDFS中文件的显示:我正在使用以下代码访问该文件:FileInputFormat.setInputPaths(conf,newPath("hdfs://127.0.0.1:8020/user/hue/smallClaimData.txt"));我非常有信心这个路径是正确的，因为我第一次尝试运行它时出现错误:“文件不存在”。我添加了用户文件夹名称(我第一次省略了)并且错误消失了。因此，我假设我在HDFS中正确引用了这个文件但是，当我运行mapreduce作业

hadoop - 无法通过 SSH 连接到 VM，导致使用 bdutil 安装 Hadoop 出现问题

我已经解决了这个网站上围绕这个问题的大部分问题，但似乎没有任何帮助。基本上我想做的是通过Google提供的bdutil脚本在我的VM上实例化一个Hadoop实例，但是问题似乎与我无法通过ssh进入VM实例有关。我已经为此苦苦挣扎了几天，非常感谢您的帮助。以下是我遵循的步骤:为了引导您完成这些步骤，我刚刚创建了一个新的VM我可以毫无问题地通过开发者控制台进行SSH下面是系统信息和操作系统:uname–aLinuxarchipelago-vm12.6.32-431.20.3.el6.x86_64#1SMPThuJun1921:14:45UTC2014tail/etc/redhat-rele

java - 如何在 Hortonworks VM 上的 Spark 上运行 .jar？

我是HortonworksVM的新手，我很困惑。我正在尝试在Spark上运行.jar文件。通常我通过运行在Windows上进行本地测试spark-submit--driver-memory4g--classen.name.ClassName%CODE%/target/program.jar但由于我需要Hive，所以我想我应该转移到HortonworksVM以在本地进行测试。现在，我已经通过Hortonworks的Ambari的HDFS文件GUI将我的.jar和输入文件上传到HDFS(到/tmp/my_code目录)。接下来是什么？我也找到了命令行，但是如何从VM的命令行访问HDFS上的

xml - 可以将 HCatalog 与 XML 一起使用吗？ -- 在 Cloudera VM 上执行 ETL

我正在处理一个大数据类的项目，我已经在本地安装了ClouderaQuickstartVM以在我的数据集上运行一些基本任务并熟悉一些工具。我正在学习一个教程，其中涉及将数据集移动到HDFS，基于数据集文件创建一个HCatalog表，然后在该表上运行Hive和/或Pig命令。问题是我的数据是一个大的XML文件，HCatalog中的标准分隔符选项不适用。有没有办法将XML导入HCatalog？如果不是，在我的XML数据集上使用Hive或Pig的最佳方法是什么？编辑:我的文件来自公共(public)StackOverflow数据集。我正在使用posts.xml文件。它非常大(25GB)，我无法

hadoop - 在 hadoop 2.3.0-cdh-5.0 上的 Giraph1.1.0 上执行示例显示以下错误

root@pseudo-hadoop:/usr/lib/hadoop#bin/hadoopjar$GIRAPH_HOME/giraph-examples/target/giraph-examples-1.1.0-SNAPSHOT-for-hadoop-1.2.1-jar-with-dependencies.jarorg.apache.giraph.GiraphRunnerorg.apache.giraph.examples.SimpleShortestPathsComputation-viforg.apache.giraph.io.formats.JsonLongDoubleFloat

java.io.IOException : Cannot initialize Cluster in Hadoop2 with YARN 异常

这是我第一次在stackoverflow上发帖，所以如果我做错了什么，我深表歉意。我最近建立了一个新的hadoop集群，这是我第一次尝试使用Hadoop2和YARN。我目前在提交作业时遇到以下错误。java.io.IOException:CannotinitializeCluster.Pleasecheckyourconfigurationformapreduce.framework.nameandthecorrespondserveraddresses.atorg.apache.hadoop.mapreduce.Cluster.initialize(Cluster.java:120)