vm-cdh-cluster

hadoop - 在 CDH 4.7 中设置 share_jobs 的 hue.ini 位置

我正在尝试设置描述的share_jobs设置HERE为false。文档HERE说要访问http://myserver:port/dump_config以查找HUE配置的位置。对我来说，它提供了/var/run/cloudera-scm-agent/process/73-hue-HUE_SERVER/。正如您可能从它在/var/run/中猜到的那样，每次启动时都会重新创建该目录，因此不会保存对hue.ini的更改并执行似乎不会影响http://myserver:port/dump_config中列出的配置。我运行了find/-namehue.ini以查看是否还有另一个要更改的hue.in

中设 share_jobs code cloudera hue hadoop cloudera-cdh cloudera-manager

hadoop - 报告平台应该选择 yarn-cluster 还是 yarn-client？

我打算做的是使用现有数据开发一个报告平台。我有一个包含大量记录的现有RDBMS。所以我在用。(Hadoop2.7,Spark,Hive,JasperReports,Scoop-Architecuture)Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。鉴于我已经阅读了以下内容Whatisyarn-clientmodeinSpark?Differencebetweenyarn-clientmodeandyarn-clustermode我应该使用

yarn yarn-cluster section noreferrer hadoop apache-spark hadoop-yarn

hadoop - CDH 组件版本号

我安装了一个CDH集群并使用了hadoop版本，但它只返回了Hadoop版本。有没有办法在图形界面上获取所有已安装组件的版本号？例如，哪个命令可以获取Spark版本号？最佳答案打开CM(hostname:portnumber)->Hosts选项卡->HostInspector查找是什么版本CM和CDH安装在集群中的所有主机上，以及安装的带有版本详细信息的cdh组件列表关于hadoop-CDH组件版本号，我们在StackOverflow上找到一个类似的问题：

hadoop CDH section code stackoverflow cloudera-cdh

Maven 依赖项 : non existing library 'hadoop-common-2.6.0-cdh5.9.0.jar'

我正在尝试实现一个Spark应用程序WordCount，但是当我添加hadoop-common依赖项时出现错误:'MavenDependencies'referencesnonexistinglibrary'/root/.m2/repository/org/apache/hadoop/hadoop-common/2.6.0-cdh5.9.0/hadoop-common-2.6.0-cdh5.9.0.jar'这是我的pom.xml:org.scala-langscala-library2.10.6org.apache.hadoophadoop-common2.6.0-cdh5.9.0ju

hadoop-common amp gt lt hadoop maven

apache-spark - 如何将配置从 spark-submit 传递到 yarn cluster？

我想知道有什么方法可以让spark-submit临时更改yarn作业的配置？问题是因为我们的Sparkoveryarncluster的historyserver只允许admin访问，不方便用户检索自己job的log。我了解到mapreduce-default.xml中的“mapreduce.job.acl-view-job”可以更改特定作业的ACL。因为我正在使用spark-submit来启Action业，并且“--conf”是为spark本身保留的，但是我如何从命令行和应用程序一起设置yarn的配置？最佳答案您可以修改Spar

spark apache-spark code section hadoop mapreduce hadoop-yarn spark-submit

hadoop - 如果我已经安装了带有 Ambari 的 Hadoop，我可以使用 CDH 安装第二个 Hadoop 吗？在同一台机器上

如果我已经在相同的三台机器上安装了带有Ambari的Hadoop集群，我可以拥有第二个带有CDH的Hadoop集群吗？如果是，如何将原集群上的数据迁移到新集群？谢谢。最佳答案是的，您可以，但这不是一项简单的任务。HDP和CDH服务之间会发生端口冲突。因此，您必须为CDH集群选择不同的端口。另一个需要解决的痛点——两个集群都希望使用/etc/hadoop、/etc/hive等来存储配置文件。因此，集群之一应该配置为使用不同的位置。关于数据迁移，使用distcp。关于hadoop-如果

Hadoop section 新集 cloudera-cdh ambari

hadoop - 如何在没有 CDH 的情况下安装和配置 Hue 来管理 HDFS

我想安装和配置Hue以使用Web管理我的HDFS文件？我在本地机器上安装了单节点Hadoop集群。我找到了这个HueInstallGuide，它通过Clouderamanager和CDH安装Hue，但我想不使用Clouderamanager和CDH来安装它。我该如何解决这个问题？最佳答案关注installationdocumentationonHue'sGithub,或官方documentationpage你会得到最新版本的Hue(而不是依赖CDH拥有的旧版本)能够针对任何Hadoop集群运行它(提供正确的setupofhue.

何在 hadoop section noreferrer noopener cloudera hue

hadoop - 如何将数据从 CDH3 集群迁移到(不同的)CDH4 集群？

我想将数据从CDH3复制到CDH4(在不同的服务器上)。我的CDH4服务器设置为无法看到CDH3，因此我必须将数据从CDH3上游推送到CDH4。(这意味着我无法从CDH4运行distcp命令来复制数据)。如何通过在较低版本的CDH3hadoop上运行命令将我的数据传输到CDH4的HDFS，或者这不可能吗？最佳答案理想情况下，您应该能够使用distcp将数据从一个HDFS集群复制到另一个。hadoopdistcp-p-update"hdfs://A:8020/user/foo/bar""hdfs://B:8020/user/foo

CDH hadoop section CDH4 hdfs cloudera

linux - 如何使用终端而不是应用程序在VM中扩展磁盘？

我使用vmwareplayer和“clouderatrainingvm4.1.1.c”。cloudera培训是一种linux和hadoop的结合。我现在试着展开磁盘。首先，我尝试使用第三方软件，比如gparted，但它不在cloudera培训中运行。然后，我试图通过终端，现在我卡住了。我已经创建了一个名为sda3的分区，并试图使sda3获得可用空间并投入使用。它似乎得到了自由空间，但我仍然不能使用这个空间。>[root@localhosttraining]#pvscanPV/dev/sda3lvm2[13.79GiB]Total:1[13.79GiB]/inuse:0[0]/innoV

linux 如何 section sda dev hadoop virtual-machine disk-partitioning

hadoop - 使用 Cloudera VM 问题运行 Oozie

我在vmware中使用clouderaquickstart来运行示例Oozie。我正在尝试运行Cloudera中的一些Oozie示例。我正在关注此链接:http://archive.cloudera.com/cdh/3/oozie/DG_Examples.html我解压缩了“oozie-examples.tar.gz”并获得了示例目录。运行oozie时，我收到一条错误消息:[cloudera@localhostoozie-3.3.2+92]$ooziejob-ooziehttp://localhost:11000/oozie-configexamples/apps/map-reduce

Cloudera hadoop oozie localhost section