$cdh_草庐IT

Maven 依赖项 : non existing library 'hadoop-common-2.6.0-cdh5.9.0.jar'

我正在尝试实现一个Spark应用程序WordCount，但是当我添加hadoop-common依赖项时出现错误:'MavenDependencies'referencesnonexistinglibrary'/root/.m2/repository/org/apache/hadoop/hadoop-common/2.6.0-cdh5.9.0/hadoop-common-2.6.0-cdh5.9.0.jar'这是我的pom.xml:org.scala-langscala-library2.10.6org.apache.hadoophadoop-common2.6.0-cdh5.9.0ju

hadoop-common amp gt lt hadoop maven

hadoop - 如果我已经安装了带有 Ambari 的 Hadoop，我可以使用 CDH 安装第二个 Hadoop 吗？在同一台机器上

如果我已经在相同的三台机器上安装了带有Ambari的Hadoop集群，我可以拥有第二个带有CDH的Hadoop集群吗？如果是，如何将原集群上的数据迁移到新集群？谢谢。最佳答案是的，您可以，但这不是一项简单的任务。HDP和CDH服务之间会发生端口冲突。因此，您必须为CDH集群选择不同的端口。另一个需要解决的痛点——两个集群都希望使用/etc/hadoop、/etc/hive等来存储配置文件。因此，集群之一应该配置为使用不同的位置。关于数据迁移，使用distcp。关于hadoop-如果

Hadoop section 新集 cloudera-cdh ambari

hadoop - 如何在没有 CDH 的情况下安装和配置 Hue 来管理 HDFS

我想安装和配置Hue以使用Web管理我的HDFS文件？我在本地机器上安装了单节点Hadoop集群。我找到了这个HueInstallGuide，它通过Clouderamanager和CDH安装Hue，但我想不使用Clouderamanager和CDH来安装它。我该如何解决这个问题？最佳答案关注installationdocumentationonHue'sGithub,或官方documentationpage你会得到最新版本的Hue(而不是依赖CDH拥有的旧版本)能够针对任何Hadoop集群运行它(提供正确的setupofhue.

何在 hadoop section noreferrer noopener cloudera hue

hadoop - 如何将数据从 CDH3 集群迁移到(不同的)CDH4 集群？

我想将数据从CDH3复制到CDH4(在不同的服务器上)。我的CDH4服务器设置为无法看到CDH3，因此我必须将数据从CDH3上游推送到CDH4。(这意味着我无法从CDH4运行distcp命令来复制数据)。如何通过在较低版本的CDH3hadoop上运行命令将我的数据传输到CDH4的HDFS，或者这不可能吗？最佳答案理想情况下，您应该能够使用distcp将数据从一个HDFS集群复制到另一个。hadoopdistcp-p-update"hdfs://A:8020/user/foo/bar""hdfs://B:8020/user/foo

CDH hadoop section CDH4 hdfs cloudera

hadoop - 如何加载csv文件数据到CDH？

我有多个csv文件，我想将它们导入CDH表。我想知道是否有类似sqoop的工具可以从文件中导入数据。有什么方法或工具可以自动完成吗？最佳答案您可以使用HueWebUI。使用FileBrowser菜单将文件上传到hdfs。之后你可以使用数据浏览器/Metastore表创建新模式/使用上传的文件创建新表。关于hadoop-如何加载csv文件数据到CDH？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co

hadoop csv section stackoverflow questions cloudera cloudera-cdh bigdata

hadoop - 现有 CDH 5.5.2 集群上的 Kafka 配置

我正在我现有的CDH5.5.2集群上安装Kafka-2.0，这是我遵循的过程从CM添加服务选择Kafka(在此之前我在所有节点上下载并分发并激活了kafkaparcel)为KafkaBroker选择了1个节点，为KafkaMirrorMaker选择了4个节点然后我使用MirrorMaker节点之一更新了我的目标代理列表(bootstrap.servers)属性以及具有相同节点的源代理列表(source.bootstrap.servers)我得到以下错误(日志文件)FatalerrorduringKafkaServerStartablestartup.Preparetoshutdownj

hadoop Kafka scala LogCleaner apache-kafka hadoop2 rhel cloudera-cdh

python - 在 CDH3 上编写 HBase MapReduce 的最简单的非 Java 方法？

我已经为此工作了很长时间，我感到很疲惫；我希望来自SO社区的[显而易见的？]见解可能会让我的宠物项目重新开始，这样我就可以停止踢自己了。我正在使用ClouderaCDH3、HBase.89和Hadoop.20。我有一个Python/Django应用程序，它使用Thrift接口(interface)将数据写入单个HBase表，效果很好。现在我想将它映射/减少到更多的HBase表中。这里明显的答案是Dumbo或ApachePIG，但是对于Pig，我的版本尚不支持HBaseStorage适配器(Pig能够加载类和定义，但在“映射”步骤卡住，提示“输入拆分”；Pig邮件列表建议这在Pig0.8

MapReduce 编写 section HBase Pig python hadoop

hadoop - Cloudera CDH 上的 Impala "Could not create logging file: Permission denied"

我在CDH4.2.0-1.cdh4.2.0.p0.10集群上的ClouderaManager4.5中通过包裹安装了Impala。当我尝试启动服务时，它在所有节点上都失败并显示此消息perl-pi-e's#{{CMF_CONF_DIR}}#/run/cloudera-scm-agent/process/800-impala-IMPALAD#g'/run/cloudera-scm-agent/process/800-impala-IMPALAD/impala-conf/impalad_flags'['impalad=impalad']'exec/opt/cloudera/parcels/I

Permission amp cloudera impala section hadoop

hadoop - Hive cdh4 节俭设置抛出 NoSuchFieldError : METASTORE THRIFT RETRIES

我使用mysql在RHEL5上使用远程元存储设置Hivecdh4。我在mysql中创建了一个与hive-site.xml同名的数据库。我启动了Metastore服务器和Hive服务器，但每当我尝试查询Hive时，它都会抛出一个错误NoSuchFieldError:METASTORETHRIFTRETRIES。我认为我无法连接到Metastore服务器或thrift服务器，这是导致此问题的原因。请为我指明正确的道路。最佳答案您是否从$HIVE_HOME/scripts/metastore/upgrade/mysql运行Hive

节俭 NoSuchFieldError section Hive mysql hadoop installation thrift cloudera

Hadoop cdh4 : reducers finish before mappers are complete

我发现hadoopcdh4有一个奇怪的行为。在所有映射器完成之前，一些reducer已经完成。我认为所有的reducer(调用reduce())都必须等到映射器完成。这是一个hadoop错误吗？在他们的某些情况下，工作可能会以这种状态结束吗？我在这里缺少什么？最佳答案有时，当作业趋于失败时，您会看到HadoopUI出现奇怪的行为。我认为你看到这个是因为你有一个任务失败或者可能更多，这是一些未能在UI中反射(reflect)出来。可能是由于tasktracker和jobtacker或内部计算之间的网络通信有些延迟(我不是很确定)。

reducers complete section 射器 Hadoop cloudera