集群NoSQL

hadoop - 如何在cloudera集群中设置PIG_HEAPSIZE？

我有一个pig脚本，每次从Oozie运行时它都会内存不足。错误:Pig日志文件转储:Pig堆栈跟踪错误2998:未处理的内部错误。Java堆空间java.lang.OutOfMemoryError:Javaheapspaceatjava.lang.StringCoding$StringEncoder.encode(StringCoding.java:300)atjava.lang.StringCoding.encode(StringCoding.java:344)atjava.lang.StringCoding.encode(StringCoding.java:387)atjava.l

中设何在 section StringCoding java hadoop apache-pig hadoop-yarn cloudera cloudera-cdh

hadoop - 在 Spark 集群和 YARN 上运行的 Apache Zeppelin

我在ApacheZeppelin中创建并运行了一个%pyspark程序，该程序在带有yarn-client的Spark集群上运行。该程序正在从HDFS读取Dataframe中的文件，并执行一个简单的groupby命令并成功打印输出。我使用的是Zeppellin版本0.6.2和Spark2.0.0。我可以看到作业在YARN中运行(参见application_1480590511892_0007):但是当我同时检查SparkUI时，这个工作什么也没有:问题1:这份工作不应该出现在这两个窗口中吗？此外，上面SparkUI图像中已完成的应用程序是带有%python解释器的Zeppelin作业，

Zeppelin hadoop strong section 中运 apache-spark pyspark apache-zeppelin

hadoop - 无法将 Ambari 安装为集群

我正在尝试在单个节点上配置ambari。我在确认主机阶段。它显示安装时间超过30分钟。我在虚拟盒子(RAM=4GB)上运行Ubuntu14.0464位。这正常吗？最佳答案注册一个主机不应该花30分钟。如果您单击状态栏下的Installing链接，它将深入查看注册正在执行的日志。这可能会提供有关注册过程出了什么问题的更多详细信息。关于hadoop-无法将Ambari安装为集群，我们在StackOverflow上找到一个类似的问题： https://stac

装为 hadoop section stackoverflow image ambari

hadoop - Hadoop 集群的类型

我听说有几种类型的集群:单节点、伪分布式和多节点。我想知道它们之间的明显区别。我是这个领域的新手。所以请解释清楚。最佳答案这些是Hadoopcluster的组件:名称节点:保存元数据任务跟踪器:接受任务JobTracker:分包Mapreduce任务数据节点:HoldaData二级名称节点:名称节点的托管编辑日志。不要让名称欺骗了您，它不是备份/故障转移。在单节点模式中:所有组件都位于一台机器上在多节点模式中:所有组件都分布在多台机器上。在伪分布式模式中:组件在模拟小型集群的本地机器上运行。仍然使用HDFS而不是本地文件系统

hadoop section strong li bigdata

hadoop - 在 Ambari 上设置集群时确认单节点集群的主机失败

我正在尝试在单节点集群上设置Ambari。Ambari设置以root用户身份完成我尝试了所有与此相关的帖子，更改了权限并设置为权限http://docs.hortonworks.com/HDPDocuments/Ambari-2.1.2.1/bk_Installing_HDP_AMB/content/_set_up_password-less_ssh.htmlcd~/.sshrm-rf/root/.sshssh-keygen-tdsacat/root/.ssh/id_dsa.pub>>/root/.ssh/authorized_keyscat/root/.ssh/authorized_

hadoop Ambari section gssapi hadoop2 bigdata

hadoop - 为什么 Hadoop 作业在云中(使用多节点集群)比在普通 PC 上慢？

我将CloudDataproc用作我的研究的云服务。在此平台(云)上运行Hadoop和spark作业比在较低容量的虚拟机上运行相同的作业要慢一些。我在云上的3节点集群(每个集群有7.5GBRAM和50GB磁盘)上运行我的Hadoop作业需要4分钟49秒，而同样的作业在具有3GBRAM和27GB磁盘的单节点虚拟机(我的电脑)上需要3分钟20秒.为什么在多节点集群的云中结果比在普通pc上慢？最佳答案首先:在不知道完整配置和您正在运行的作业类型的情况下不容易回答。可能的原因是:配置错误http://HOSTNAME:8080打开res

hadoop section li apache-spark cloud virtual-machine google-cloud-dataproc

Hadoop集群无密码ssh设置

我已经建立了一个hadoop集群。问题出在ssh无密码连接上。我的主节点无需密码即可连接到从属节点。但是我的奴隶要求输入密码才能连接到主人。当我删除从属节点中的known_hosts文件时，我无需密码即可连接到主节点。但是在重新启动时，它再次要求我输入密码。有什么想法吗？最佳答案我终于成功地通过无密码ssh连接了master和slave。以下内容可能对该领域的其他开发人员有用:关于主人:ssh-keygenssh-copy-iduser@slave然后从主机连接到从机:sshuser@slave在奴隶上:ssh-keygenss

Hadoop ssh code section

hadoop - 为什么三节点集群的性能比单节点集群差？

我用多个文件运行了多个测试。(最大文件为83.7MB)我知道网络会带来一些开销，但我期待更好的结果，因为我认为使用分布式系统的目的是减少响应时间。我用/usr/bin/time来衡量性能。这里有什么问题？最佳答案如果您的mapreducekey被发送到集群中的单个节点，那么与单个节点相比，您不会获得性能提升并且您会增加数据洗牌的网络开销如果您没有为您的硬件调整mapreduceYARN容器大小，那么您会看到性能不佳。如前所述，如果您存储的大量文件小于HDFSblock大小(128MB，如果您保留默认值)，那么您就是在浪费资源。此

hadoop 节点 section strong stackoverflow mapreduce distributed-computing

hadoop - 如何调整 Hadoop 集群以同时执行多个任务？

我有3个以上的Hadoop批处理(包括SQOOP、HIVE、PIG作业)并且这些批处理是按顺序安排的。在执行这些批处理作业时，如果有任何先前的作业正在运行，作业就会卡在ACCEPTED状态。如何增加有助于同时运行作业的插槽/容器的数量。最佳答案你可以安装更多节点管理器限制YARN容器的最大尺寸使用differentschedulers(andusequeues) 关于hadoop-如何调整Hadoop集群以同时执行多个任务？，我们在StackOverflow上找到一个类似的问题：

hadoop section stackoverflow hive hadoop2

Hadoop 集群处于安全模式(Namenode 处于安全模式) 我需要释放哪些资源才能解除安全模式？

我已经拍摄了我的集群的快照。以下是我的发现:SafemodeisONConfiguredCapacity:47430737653760(43.14TB)PresentCapacity:20590420062208(18.73TB)DFSRemaining:19343468953600(17.59TB)DFSUsed:1246951108608(1.13TB)DFSUsed%:6.06%Underreplicatedblocks:2Blockswithcorruptreplicas:0Missingblocks:0-------------------------------------

处于 Namenode Remaining Cache Used hadoop mapreduce bigdata

264 265 266267268 269 270