cloudera-quickstart-vm

java - 如何在 Cloudera hadoop 中使用外部 jar？

我的集群上安装了clouderahadoop版本4。它与googleprotobufferjar2.4版打包在一起。在我的应用程序代码中，我使用了使用protobuffer2.5版编译的protobuffer类。这会导致运行时无法解决的编译问题。有没有一种方法可以使用外部jar运行mapreduce作业，或者我会卡住直到cloudera升级他们的服务？谢谢。最佳答案是的，您可以使用外部jar运行MR作业。请务必在提交作业时向HADOOP_CLASSPATH和-libjars添加任何依赖项，如以下示例所示:您可以使用以下命令添加当

何在 Cloudera code section jar java hadoop protocol-buffers

hadoop - 如何在 EMR 上安装 cloudera impala？

无论如何，我是否可以安装唯一没有cloudera管理器和cdh的impala。我将使用hadoop的apache版本？最佳答案是的，这是绝对可能的。将存储库添加到您的sources.list文件中，然后更新存储库。deb[arch=amd64]http://archive.cloudera.com/impala/ubuntu/precise/amd64/impalaprecise-impala1contribdeb-srchttp://archive.cloudera.com/impala/ubuntu/precise/amd6

何在 cloudera impala section hadoop hive amazon-emr

eclipse - 连接到 Eclipse 中的 Hortonworks VM 以进行 MapReduce 作业的 ConnectTimeoutException？

我正在尝试在Eclipse中运行MapReduce作业。我正在尝试连接到HortonworksVM并读取HDFS中的文件之一。这是HDFS中文件的显示:我正在使用以下代码访问该文件:FileInputFormat.setInputPaths(conf,newPath("hdfs://127.0.0.1:8020/user/hue/smallClaimData.txt"));我非常有信心这个路径是正确的，因为我第一次尝试运行它时出现错误:“文件不存在”。我添加了用户文件夹名称(我第一次省略了)并且错误消失了。因此，我假设我在HDFS中正确引用了这个文件但是，当我运行mapreduce作业

ConnectTimeoutException Hortonworks hadoop apache java eclipse mapreduce hdfs hortonworks-data-platform

hadoop - 无法通过 SSH 连接到 VM，导致使用 bdutil 安装 Hadoop 出现问题

我已经解决了这个网站上围绕这个问题的大部分问题，但似乎没有任何帮助。基本上我想做的是通过Google提供的bdutil脚本在我的VM上实例化一个Hadoop实例，但是问题似乎与我无法通过ssh进入VM实例有关。我已经为此苦苦挣扎了几天，非常感谢您的帮助。以下是我遵循的步骤:为了引导您完成这些步骤，我刚刚创建了一个新的VM我可以毫无问题地通过开发者控制台进行SSH下面是系统信息和操作系统:uname–aLinuxarchipelago-vm12.6.32-431.20.3.el6.x86_64#1SMPThuJun1921:14:45UTC2014tail/etc/redhat-rele

hadoop gcutil section 的 ssh google-compute-engine google-cloud-platform google-hadoop

java - 如何在 Hortonworks VM 上的 Spark 上运行 .jar？

我是HortonworksVM的新手，我很困惑。我正在尝试在Spark上运行.jar文件。通常我通过运行在Windows上进行本地测试spark-submit--driver-memory4g--classen.name.ClassName%CODE%/target/program.jar但由于我需要Hive，所以我想我应该转移到HortonworksVM以在本地进行测试。现在，我已经通过Hortonworks的Ambari的HDFS文件GUI将我的.jar和输入文件上传到HDFS(到/tmp/my_code目录)。接下来是什么？我也找到了命令行，但是如何从VM的命令行访问HDFS上的

何在 Hortonworks code jar section java hadoop virtual-machine hortonworks-data-platform

hadoop - 将 HUE 界面语言设置/强制为英语(Hadoop/Cloudera)

由于某种原因，当我从我的机器访问它时，hue界面语言是德语。(德语语言设置，但英语浏览器和操作系统)如何强制hue始终显示英文？最佳答案 Hue正在采用您的浏览器发送的首选语言环境。您浏览器中的德语语言环境可能设置为比英语语言环境更高的优先级。Thisarticle说明您可以在哪里更改它。关于hadoop-将HUE界面语言设置/强制为英语(Hadoop/Cloudera)，我们在StackOverflow上找到一个类似的问题： https://stacko

Cloudera hadoop section 德语 questions hue

hadoop - Cloudera安装疑惑？

我是cloudera的新手，我在我的系统中成功安装了cloudera我有两个疑问，考虑一台机器的一些节点已经使用hadoop处理一些数据，我们可以安装Cloudera以使用现有的Hadoop而不对现有hadoop存储的数据进行任何更改或修改。我在我的机器上安装了Cloudera，我还有另外三台机器可以将它们添加为集群，我想知道，在将这些机器添加为集群之前，我是否要在这三台机器上安装cloudera？，或者我们可以添加一个节点作为集群而不在那个特定节点上安装cloudera？。在此先感谢任何人，请提供有关上述问题的一些信息。最佳答案

Cloudera hadoop section strong amazon-web-services apache-pig ganglia

xml - 可以将 HCatalog 与 XML 一起使用吗？ -- 在 Cloudera VM 上执行 ETL

我正在处理一个大数据类的项目，我已经在本地安装了ClouderaQuickstartVM以在我的数据集上运行一些基本任务并熟悉一些工具。我正在学习一个教程，其中涉及将数据集移动到HDFS，基于数据集文件创建一个HCatalog表，然后在该表上运行Hive和/或Pig命令。问题是我的数据是一个大的XML文件，HCatalog中的标准分隔符选项不适用。有没有办法将XML导入HCatalog？如果不是，在我的XML数据集上使用Hive或Pig的最佳方法是什么？编辑:我的文件来自公共(public)StackOverflow数据集。我正在使用posts.xml文件。它非常大(25GB)，我无法

HCatalog Cloudera gt lt item xml hadoop hive

hadoop - 如何在 Cloudera 的 Cassandra 中启用节俭？

enterimagedescriptionhere我是Cassandra和cloudera编程的新手。我有错误“没有按要求启动RPC服务器，使用JMX(存储服务->启动rpc或nodetool(enablethrift)来启动它”。我从几个小时开始就在尝试启用盗窃使用nodetool但徒劳无功。我在Cassandra位置找到了一个文件“Enablethrift.html”，但我不知道该怎么做。请帮忙最佳答案更改cassandra.yaml:start_rpc:false到start_rpc:true

节俭何在 section code Cassandra hadoop thrift cloudera

hadoop - 从表名中删除 Cloudera Impala

我是Impala的新手，我正在尝试了解如何从表中删除记录...我试过寻找删除命令，但没有找到完全可以理解的说明...这是我的表结构:createtableInstalls(BrandIDINT,PublisherIDINT,InstallDateSTRING,HourNumINT,CountrySTRING,InstallsINT)PARTITIONEDBY(dayINT,monthINT,yearINT)STOREDASPARQUET在Hadoop中可以删除吗？语法是如何工作的？任何帮助对我来说都是一个很大的帮助...谢谢:) 最佳答案

Cloudera hadoop section table INT impala hadoop-partitioning