草庐IT

Cloudera-CDH

全部标签

hadoop - CDH 5.2 启动 NodeManager-Service 时出错 NodeManager 在 INITED 状态下失败;原因 : java. lang.NullPointerException

2014-11-2119:05:37,532INFOorg.apache.hadoop.yarn.server.nodemanager.containermanager.localizer.LocalizedResource:Resourcehdfs://hadoop-master.nycloudlab.internal:8020/user/admin/.staging/job_1415362431963_0311/libjars/hbase-hadoop-compat.jar(->/yarn/nm/usercache/admin/filecache/1513/hbase-hadoop

hadoop - 能否将CDH3的HBase数据导出,导入CDH5的HBase?

我们有一个旧的基于CDH3的集群,我们将数据存储在该集群上的HBase中。我们还有全新的集群,其中安装了CDH5.2。我们想将HBase数据从CDH3集群迁移到CDH5集群。我想知道是否可以跨不同版本迁移数据?是否像使用distcp命令一样直接?在迁移数据之前和迁移过程中我需要采取哪些预防措施? 最佳答案 我认为对此没有简单的解决方案。我能想到的最简单的解决方案是使用一个MapReduce作业将每个HBase表导出到CDH3集群上的HDFS。一个DistCp作业将导出的HDFS数据从您的CDH3集群传输到CDH5集群上的HDFS,最

ubuntu - 权限被拒绝 : u'/opt/cloudera/parcel-cache/CDH-5. 3.3-1.cdh5.3.3.p0.5-precise.parcel.part'

我正在尝试安装具有3个节点的hadoopcloudera集群,所有这些节点都是ubuntu12.04机器。为此,我做了以下事情。我已经在所有机器上创建了hduser,并通过以下命令授予它root权限。sudoaddgrouphadoopsudoadduser--ingrouphadoophdusersudoadduserhdusersudosudosuhduser然后在所有机器上通过以下命令为无密码ssh生成无密码key。机器详细信息:master-1ip:192.168.0.101slave-1ip:192.168.0.102slave-2ip:192.168.0.103命令:ssh

hadoop - Cloudera 管理器 "Memory Overcommit Validation Threshold"

我目前有一个由3台机器组成的集群,它们都在运行Ubuntu,并且已经使用ClouderaManager进行了配置。查看集群后,我发现其中两台机器出现错误“MemoryOvercommitValidationThreshold”。一种是在机器只有3.8GB的物理内存时使用6.3GB的内存,另一种是在机器只有7.8GB的物理内存时使用11.6GB的内存。我认为这是因为这两个都被设置为数据节点和名称节点,但我不确定如何使它只使用可用的内存而不交换。我已经在sysctl.conf文件中将swappiness设置为0。我无法为名称节点使用另一台机器或向机器添加任何内存。知道如何降低内存使用量,以

hadoop - Cloudera 5.4.4 Cluster - 获取聚合使用指标

我想从Cloudera5.4.4Hadoop集群收集汇总使用指标。我心目中的一些指标如下:集群每天/每周的平均CPU利用率Hadoop上运行时间最长的n个作业/查询最常使用集群的前n个用户(按利用率、提交的作业数)集群磁盘使用率与磁盘容量集群磁盘使用量随时间增长是否有任何API/资源/工具等我可以用来开始这个?我不认为我完全确定从哪里开始。任何起点将不胜感激。另外,请分享您在集群使用指标方面的经验(如果有的话)。提前致谢! 最佳答案 Ganglia是一个用于大型集群的开源、可扩展的分布式监控系统。它收集、汇总并提供数十个与机器相关的

apache - cloudera 管理器 vs Apache

clouderadistribution使用clouderamanager在集群中进行自动安装和维护事件,就像Hortonworksdistribution在Windows中使用Ambari用于相同目的,任何人都可以告诉Apachedistribution使用什么工具来简化集群安装和维护? 最佳答案 正如您提到的ClouderaManager和Ambari提供两种类型的服务,安装和监控。Ambari是开源apache项目。Hortonworks使用其发行版提供支持和服务。也可以使用puppet/chef进行安装,使用Ganglia进

java - Cloudera HBase 连接超时异常

我正在尝试在clouderaVM(5.5)中查询HBase但出现以下异常:ErrorconnectingHBase:org.apache.hadoop.hbase.MasterNotRunningException:com.google.protobuf.ServiceException:org.apache.hadoop.net.ConnectTimeoutException:20000millistimeoutwhilewaitingforchanneltobereadyforconnect.ch:java.nio.channels.SocketChannel[connection

python-3.x - 如何从远程python服务连接到CDH集群

我有一个在aws上运行的CDH集群。还有一组服务在连接到ECS集群的不同ec2机器上运行。都在一个VPN中。我的用例是将数据从在ec2上运行的外部服务写入CDHhadoop集群。我正试图找出最好的方法。请建议我在python中实现这一目标的可能方法。 最佳答案 ApacheHadoop提供WebHDFS,这是进入HDFS操作的HTTP接口(interface)。这允许您使用任何PythonHTTP客户端库(例如httplib)来操作HDFS中的文件。,urllib或urllib2.事实上,您可以使用任何提供HTTP客户端库的编程语言

hadoop - 如何将 Zeppelin 添加到 CDH 'by the book'?

您可以通过ClouderaManager安装许多工具,但列表中缺少Zeppelin。将Zeppelin添加到ClouderaCDH堆栈的最佳方法是什么?我在互联网上找到了一些文档,但它们有点手动。我正在寻找托管解决方案。 最佳答案 CDH支持笔记本环境的Hue。据我所知,ClouderaManager不支持ZeppelinParcel。我不确定您所说的“托管解决方案”是什么意思,但是自动安装Zeppelin(和Spark),配置指向外部YARNmaster以提交作业并不太复杂,并且可以写成Puppet、Chef或Ansible相当容

hadoop - 在cloudera中安装apache hadoop-tools

我有cloudera5.14开发环境。我想在cloudera发行版中安装apachehadoop-tools(link)。具体来说,我需要hadoop-resourceestimator(link)。没有可用的文档说明如何安装相同的.我们将不胜感激任何潜在客户。 最佳答案 AFAIKcdh5.14.x基于旧的hadoop版本2.6.0,它没有resourceestimator工具。它可用但在CDH6中不受支持(“不支持”与“不可用”不同)。你可以在CDH6.x发行版中找到resourceestimator,-rw-r--r--1ro