草庐IT

Hadoop CDH。文件只能复制到 0 个节点而不是 minReplication (=1)

我对72台机器的集群有疑问。其中60个是热存储,12个是冷存储。当我尝试将数据放入COLDHive表时,有时出现错误:Causedby:org.apache.hadoop.hive.ql.metadata.HiveException:org.apache.hadoop.ipc.RemoteException(java.io.IOException):File/user/hive/warehouse/test.db/rawlogs/dt=2016-01-31/.hive-staging_hive_2016-06-29_12-54-09_949_6553181118480369018-1/

hadoop - 在启用 kerberos 的 CDH 集群中添加 Hbase 服务

我有一个CDH集群已经在使用kerberos身份验证运行。我需要将HBase服务添加到正在运行的集群。自启用kerberos以来,正在寻找启用hbase服务的文档。欢迎使用命令行和GUI选项。还有,如果有像这样的小建表步骤那样的测试方法就好了。提前致谢! 最佳答案 如果您通过ClouderaManager-AddService向导添加它,CDH会自动处理(创建/分发Kerberoskey表并添加服务) 关于hadoop-在启用kerberos的CDH集群中添加Hbase服务,我们在Sta

hadoop - 如何增加MR或Hive CDH并行运行的Map任务数

MR作业启动时有128个映射器,但只有7个并行运行。如何增加并行运行的maptask的数量?谢谢 最佳答案 mapreduce.tasktracker.map.tasks.maximum这将设置可以在tasktracker级别同时运行的最大maptask数。要在作业级别设置它,您可以使用mapreduce.job.running.map.limit。 关于hadoop-如何增加MR或HiveCDH并行运行的Map任务数,我们在StackOverflow上找到一个类似的问题:

hadoop - 是否可以在单独安装 Hadoop 和其他几个组件的 RHEL7 服务器上安装 CDH

我有一个RHEL7服务器,我试图在其中创建一个用于POC和学习目的的通用数据湖平台。我分别设置了Hadoop、Hive、Zookeeper、Kafka、Spark、Sqoop。单独安装这些组件被证明是一件棘手的事情,并且需要花费很多精力,即使这是出于内部目的而不是特定于生产。我现在正在尝试在此服务器中安装CDH包。有可能这样做吗?它会与当前的安装重叠吗?如何实现。注意:我们进行单独安装的原因是当时服务器中的互联网不可用。现在选择CDH的原因是在获得一些批准后几天可以使用互联网,加上CDH节省了大量时间和精力,并且包括设置数据湖所需的组件。有人可以帮我解决这个问题吗

eclipse-plugin - hadoop 的 eclipse 插件是否与 CDH3 一起工作

我在我的机器上安装了clouderaCDH3。然后我尝试使用eclipse插件(JIRAMAPREDUCE-1280)来做一些MR任务。但是,由于某种原因,该插件似乎不适用于CDH3。它无法连接到DFS。插件是否正常工作? 最佳答案 CDH3与ApacheHadoop0.20.2不兼容。来自JIRAMAPREDUCE-1280的Eclipse插件是针对ApacheHadoop构建的。它与CDH3不兼容。 关于eclipse-plugin-hadoop的eclipse插件是否与CDH3一起

hadoop - 将 Akubra-HDFS 与 Cloudera CDH4 结合使用

我正在尝试使用Akubra-HDFS作为fedoracommons的低级存储服务器。我遵循了类似于installationofIRODS的程序设置Akubra-HDFS。fedora服务器使用Hadoop(版本1.0.4)作为其存储。但是,我在将Akubra-HDFS库与ClouderaCDH4/ApacheHadoop2.0.3alpha-高可用性(HA)发行版一起使用时遇到了问题。我想分享我的发现。 最佳答案 由于AKubra-HDFS是一个新的实验性库,互联网上关于它的资源并不多。我必须通过尝试不同的依赖jar来找出解决方案。

hadoop - CDH伪集群启动Jobtracker和Tasktracker失败

当我尝试在R中执行mapreduce并且未能与JT和TT通信时,我注意到了这个问题。这是在我更改了一些配置文件后发生的,但不幸的是,我忘记了如何将其更改回来(我的错)!!1)JT日志:2013-08-0515:14:09,335INFOorg.apache.hadoop.mapred.JobTracker:STARTUP_MSG:/************************************************************STARTUP_MSG:StartingJobTrackerSTARTUP_MSG:host=rhadoop/172.16.1.39STA

hadoop - Cloudera CDH4 上的 Accumulo - 启动组件时拒绝访问

我有一个使用ClouderaCDH4Hadoop和MapReducev1启动并运行的小型集群。Namenode/SecondaryNamenode/Jobtracker都在不同的机器上。我的三台服务器也充当Zookeeper服务器。我正在尝试在此集群上安装Accumulo1.4.4。我在Accumulo1.5.0中得到了相同的行为。我能够bin/accumuloinit并初始化Accumulo,但启动各个组件失败。我正在尝试让我的Namenode成为Accumulo主机。bin/start-server.shlocalhostmonitor吐出一个非常令人鼓舞的Startingmoni

hadoop - CDH5 Hue Hive — 蜂蜡服务器 : Error opening session: Failed to validate proxy privilage of hue for admin

我通过Kerberos设置了一个具有安全性的Hadoop集群,Hive已经启用了Sentry。我对Hue-Hive(Beeswax)Editor有疑问。Hue无法在hive-server2日志中加载来自hive的数据和信息:2014-04-0311:36:39,814WARNthrift.ThriftCLIService(ThriftCLIService.java:GetSchemas(364))-Errorgettingcatalogs:org.apache.hive.service.cli.HiveSQLException:InvalidSessionHandle:SessionH

hadoop - 在 ubuntu 12.04 LTS 中使用 cloudera manager 安装 Cloudera CDH5

我正在尝试在Ubuntu12.04LTS(64位)中使用ClouderaManager安装CDH5。我正在按照Clouderalink中提到的步骤进行操作.我无法为安装CDH5指定正确的主机名。除了/etc/hosts文件中的127.0.0.1和127.0.1.1之外,我没有任何其他条目。我正在使用USB加密狗访问互联网,但我现在没有任何以太网连接。请告诉我是否需要以太网连接才能在我的PC中安装CDH5。附言我目前是一名大型机开发人员,没有任何Linux或开源背景。我花了将近40个小时的时间试图在我的机器上安装CDH5,以便我可以进行Udacity'sIntroductiontoHad