cloudera-quickstart-vm

hadoop - Cloudera 管理器 "Memory Overcommit Validation Threshold"

我目前有一个由3台机器组成的集群，它们都在运行Ubuntu，并且已经使用ClouderaManager进行了配置。查看集群后，我发现其中两台机器出现错误“MemoryOvercommitValidationThreshold”。一种是在机器只有3.8GB的物理内存时使用6.3GB的内存，另一种是在机器只有7.8GB的物理内存时使用11.6GB的内存。我认为这是因为这两个都被设置为数据节点和名称节点，但我不确定如何使它只使用可用的内存而不交换。我已经在sysctl.conf文件中将swappiness设置为0。我无法为名称节点使用另一台机器或向机器添加任何内存。知道如何降低内存使用量，以

hadoop - Cloudera 5.4.4 Cluster - 获取聚合使用指标

我想从Cloudera5.4.4Hadoop集群收集汇总使用指标。我心目中的一些指标如下:集群每天/每周的平均CPU利用率Hadoop上运行时间最长的n个作业/查询最常使用集群的前n个用户(按利用率、提交的作业数)集群磁盘使用率与磁盘容量集群磁盘使用量随时间增长是否有任何API/资源/工具等我可以用来开始这个？我不认为我完全确定从哪里开始。任何起点将不胜感激。另外，请分享您在集群使用指标方面的经验(如果有的话)。提前致谢! 最佳答案 Ganglia是一个用于大型集群的开源、可扩展的分布式监控系统。它收集、汇总并提供数十个与机器相关的

Cloudera Cluster section Ganglia Hadoop cloudera-cdh cloudera-manager

apache - cloudera 管理器 vs Apache

clouderadistribution使用clouderamanager在集群中进行自动安装和维护事件，就像Hortonworksdistribution在Windows中使用Ambari用于相同目的，任何人都可以告诉Apachedistribution使用什么工具来简化集群安装和维护？最佳答案正如您提到的ClouderaManager和Ambari提供两种类型的服务，安装和监控。Ambari是开源apache项目。Hortonworks使用其发行版提供支持和服务。也可以使用puppet/chef进行安装，使用Ganglia进

cloudera apache section distribution Ambari hadoop cloudera-manager

java - Cloudera HBase 连接超时异常

我正在尝试在clouderaVM(5.5)中查询HBase但出现以下异常:ErrorconnectingHBase:org.apache.hadoop.hbase.MasterNotRunningException:com.google.protobuf.ServiceException:org.apache.hadoop.net.ConnectTimeoutException:20000millistimeoutwhilewaitingforchanneltobereadyforconnect.ch:java.nio.channels.SocketChannel[connection

Cloudera HBase HConnectionManager strong section java hadoop apache-zookeeper

hadoop - 在cloudera中安装apache hadoop-tools

我有cloudera5.14开发环境。我想在cloudera发行版中安装apachehadoop-tools(link)。具体来说，我需要hadoop-resourceestimator(link)。没有可用的文档说明如何安装相同的.我们将不胜感激任何潜在客户。最佳答案 AFAIKcdh5.14.x基于旧的hadoop版本2.6.0，它没有resourceestimator工具。它可用但在CDH6中不受支持(“不支持”与“不可用”不同)。你可以在CDH6.x发行版中找到resourceestimator，-rw-r--r--1ro

中安 hadoop section resourceestimator cloudera-cdh hadoop-plugins

hadoop - 我可以在没有 root 访问权限的情况下使用 hadoop cloudera 吗？

有点二元问题(好吧，不是很奇怪)-但想知道是否能够配置cloudera/hadoop在节点上运行而无需rootshell访问节点计算机(尽管我可以设置ssh无密码登录)？从他们的说明中可以看出需要root访问权限，但我发现一个hadoopwiki表明可能不需要root访问权限？http://wiki.apache.org/nutch/NutchHadoopTutorial 最佳答案你可以，是的。您只需要从源代码而不是RPM或DEB安装。访问http://archive.cloudera.com/docs/然后单击右上角的“Tarb

hadoop cloudera section mapreduce

java - Hadoop 生成多个 VM

当我使用bin/start-all.sh脚本启动hadoop时，它似乎为名称节点、数据节点、作业跟踪器和任务跟踪器启动了不同的JVM。此外，当我开始一项工作时，它似乎为每个工作创建了另一个JVM。hadoop这样做有什么具体原因吗？我知道这在多节点集群环境中是必要的，但即使在单节点集群中也是如此。有没有一种方法可以指定在同一JVM下运行所有内容的任何配置参数？最佳答案我还没有读到任何具体说明他们为什么这样做的内容，但是对于多个JVM，您可能会使用更多的物理RAM(取决于操作系统)。你也会得到一些隔离。所以，如果你想改变一个组

Hadoop java section 跟踪器 JVM apache

hadoop - cloudera集群节点角色

我需要在我的clouderaCDH4集群设置上运行简单的基准测试。我的cloudera集群设置(CDH4)有4个节点，A、B、C和D我正在使用clouderamanager免费版来管理cloudera服务。每个节点都配置为执行如下所述的多个角色。A:NameNode,JobTrackerNode,regionserver,SecondaryNameNode,DataNode,TaskTrackerNodeB:数据节点、任务跟踪器节点C:数据节点、任务跟踪器节点D:DataNode,TaskTrackerNode我的第一个问题是，一个节点可以是NameNode和DataNode吗？这样设

cloudera hadoop section 跟踪器

hadoop - Cloudera Hadoop - 安装错误

我是Linux和Hadoop的新手。我想学习Pig、MapReduce和Hive的基础知识，我正在尝试在Ubuntu上安装Cloudera的Hadoop解决方案。This是我正在关注的教程。我停留在第1步。我没有使用代理，所以我跳过了代理配置步骤。转到步骤1.6，然后我收到以下错误消息。有什么想法我应该尝试吗？Refreshingrepositorymetadatafailed.See/var/log/cloudera-manager-installer/2.refresh-repo.logfordetails.ClickOKtorevertthisinstallation.这是日志文

Cloudera hadoop precise http ubuntu

hadoop - cloudera hadoop mapreduce 作业 GC 开销限制超出错误

我正在clouderacdh4上运行一个canopy集群作业(使用mahout)。待聚类的内容大约有1m条记录(每条记录大小小于1k)。整个hadoop环境(包括所有节点)运行在一个4G内存的虚拟机中。默认情况下安装cdh4。运行作业时出现以下异常。根据异常情况，作业客户端似乎需要更大的jvm堆大小。但是clouderamanager中jvmheapsize的配置选项还是挺多的。我将“客户端Java堆大小(以字节为单位)”从256MiB更改为512MiB。然而，它并没有改善。关于设置这些堆大小选项的任何提示/技巧？13/07/0317:12:45INFOinput.FileInputF

hadoop mapreduce JobClient mapred reduce heap-memory cloudera

66 67 686970 71 72