cloudera-quickstart-vm
全部标签 我目前有一个由3台机器组成的集群,它们都在运行Ubuntu,并且已经使用ClouderaManager进行了配置。查看集群后,我发现其中两台机器出现错误“MemoryOvercommitValidationThreshold”。一种是在机器只有3.8GB的物理内存时使用6.3GB的内存,另一种是在机器只有7.8GB的物理内存时使用11.6GB的内存。我认为这是因为这两个都被设置为数据节点和名称节点,但我不确定如何使它只使用可用的内存而不交换。我已经在sysctl.conf文件中将swappiness设置为0。我无法为名称节点使用另一台机器或向机器添加任何内存。知道如何降低内存使用量,以
我想从Cloudera5.4.4Hadoop集群收集汇总使用指标。我心目中的一些指标如下:集群每天/每周的平均CPU利用率Hadoop上运行时间最长的n个作业/查询最常使用集群的前n个用户(按利用率、提交的作业数)集群磁盘使用率与磁盘容量集群磁盘使用量随时间增长是否有任何API/资源/工具等我可以用来开始这个?我不认为我完全确定从哪里开始。任何起点将不胜感激。另外,请分享您在集群使用指标方面的经验(如果有的话)。提前致谢! 最佳答案 Ganglia是一个用于大型集群的开源、可扩展的分布式监控系统。它收集、汇总并提供数十个与机器相关的
clouderadistribution使用clouderamanager在集群中进行自动安装和维护事件,就像Hortonworksdistribution在Windows中使用Ambari用于相同目的,任何人都可以告诉Apachedistribution使用什么工具来简化集群安装和维护? 最佳答案 正如您提到的ClouderaManager和Ambari提供两种类型的服务,安装和监控。Ambari是开源apache项目。Hortonworks使用其发行版提供支持和服务。也可以使用puppet/chef进行安装,使用Ganglia进
我正在尝试在clouderaVM(5.5)中查询HBase但出现以下异常:ErrorconnectingHBase:org.apache.hadoop.hbase.MasterNotRunningException:com.google.protobuf.ServiceException:org.apache.hadoop.net.ConnectTimeoutException:20000millistimeoutwhilewaitingforchanneltobereadyforconnect.ch:java.nio.channels.SocketChannel[connection
我有cloudera5.14开发环境。我想在cloudera发行版中安装apachehadoop-tools(link)。具体来说,我需要hadoop-resourceestimator(link)。没有可用的文档说明如何安装相同的.我们将不胜感激任何潜在客户。 最佳答案 AFAIKcdh5.14.x基于旧的hadoop版本2.6.0,它没有resourceestimator工具。它可用但在CDH6中不受支持(“不支持”与“不可用”不同)。你可以在CDH6.x发行版中找到resourceestimator,-rw-r--r--1ro
有点二元问题(好吧,不是很奇怪)-但想知道是否能够配置cloudera/hadoop在节点上运行而无需rootshell访问节点计算机(尽管我可以设置ssh无密码登录)?从他们的说明中可以看出需要root访问权限,但我发现一个hadoopwiki表明可能不需要root访问权限?http://wiki.apache.org/nutch/NutchHadoopTutorial 最佳答案 你可以,是的。您只需要从源代码而不是RPM或DEB安装。访问http://archive.cloudera.com/docs/然后单击右上角的“Tarb
当我使用bin/start-all.sh脚本启动hadoop时,它似乎为名称节点、数据节点、作业跟踪器和任务跟踪器启动了不同的JVM。此外,当我开始一项工作时,它似乎为每个工作创建了另一个JVM。hadoop这样做有什么具体原因吗?我知道这在多节点集群环境中是必要的,但即使在单节点集群中也是如此。有没有一种方法可以指定在同一JVM下运行所有内容的任何配置参数? 最佳答案 我还没有读到任何具体说明他们为什么这样做的内容,但是对于多个JVM,您可能会使用更多的物理RAM(取决于操作系统)。你也会得到一些隔离。所以,如果你想改变一个组
我需要在我的clouderaCDH4集群设置上运行简单的基准测试。我的cloudera集群设置(CDH4)有4个节点,A、B、C和D我正在使用clouderamanager免费版来管理cloudera服务。每个节点都配置为执行如下所述的多个角色。A:NameNode,JobTrackerNode,regionserver,SecondaryNameNode,DataNode,TaskTrackerNodeB:数据节点、任务跟踪器节点C:数据节点、任务跟踪器节点D:DataNode,TaskTrackerNode我的第一个问题是,一个节点可以是NameNode和DataNode吗?这样设
我是Linux和Hadoop的新手。我想学习Pig、MapReduce和Hive的基础知识,我正在尝试在Ubuntu上安装Cloudera的Hadoop解决方案。This是我正在关注的教程。我停留在第1步。我没有使用代理,所以我跳过了代理配置步骤。转到步骤1.6,然后我收到以下错误消息。有什么想法我应该尝试吗?Refreshingrepositorymetadatafailed.See/var/log/cloudera-manager-installer/2.refresh-repo.logfordetails.ClickOKtorevertthisinstallation.这是日志文
我正在clouderacdh4上运行一个canopy集群作业(使用mahout)。待聚类的内容大约有1m条记录(每条记录大小小于1k)。整个hadoop环境(包括所有节点)运行在一个4G内存的虚拟机中。默认情况下安装cdh4。运行作业时出现以下异常。根据异常情况,作业客户端似乎需要更大的jvm堆大小。但是clouderamanager中jvmheapsize的配置选项还是挺多的。我将“客户端Java堆大小(以字节为单位)”从256MiB更改为512MiB。然而,它并没有改善。关于设置这些堆大小选项的任何提示/技巧?13/07/0317:12:45INFOinput.FileInputF