集群NoSQL

java - Hadoop 多节点集群设置

我正在尝试在hadoop中设置多节点集群，我如何将0个数据节点作为Activity数据节点并且我的hdfs显示分配了0个字节但是节点管理器守护进程在数据节点上运行大师们:masterhost1172.31.100.3(也作为辅助名称节点)名称节点datahost1172.31.100.4#datanodedatanode的日志如下:`STARTUP_MSG:build=https://git-wip-us.apache.org/repos/asf/hadoop.git-rcc865b490b9a6260e9611a5b8633cab885b3d247;compiledby'jenkin

Hadoop 多节点集群，root 权限被拒绝

我们试图在hadoop上创建一个多节点集群，但在主服务器上运行start-dfs.sh文件后，它要求输入root@slave和root@master的密码，然后显示密码被拒绝。sshslave和sshmasterfrommaster运行正常。现在怎么办？screenshotofterminal 最佳答案以hduser$bin/start-dfs.sh身份启动集群。因为，您必须仅使用hduser创建您的ssh公钥。该用户也应该在您的从机中。此外，不建议使用root。关于Hadoop多节

Hadoop root section strong code ssh

hadoop - 如何将reduce分区放入hadoop集群中设计的机器中？

例如:减少结果:part-00000,part-00001...part-00008,集群有3个数据节点，我想将part-00000、part-00001和part-00002放到slave0将part-00003、part-00004和part-00005放到slave1将part-00006、part-00007和part-00008放到slave2我该怎么做？最佳答案不是这样的。HDFS中的文件不存储在任何特定的数据节点中。每个文件由block组成，每个block被复制到多个节点(默认为3个)。所以每个文件实际上存储在不同

中设 hadoop code part section mapreduce hdfs reduce partition

hadoop - AWS EMR kerberizing 集群 hadoop.security.AccessControlException

我正在尝试对AWSEMR集群进行Kerberize。我启用了hadoop安全性，创建了kerberos主体并将它们部署在所有节点上。但是，当我使用命令“sudostarthadoop-hdfs-namenode”启动名称节点时，会抛出以下异常。2016-06-0806:14:06,515INFOorg.apache.hadoop.hdfs.server.blockmanagement.DatanodeDescriptor(main):Numberoffailedstoragechangesfrom0to02016-06-0806:14:06,515INFOorg.apache.hado

hadoop AccessControlException Server apache amazon-web-services kerberos emr

scala - Spark (Scala) 中的 K-means - 当模型由标准化数据制成时如何将集群编号映射回客户 ID

以下代码用于获取模型。我面临的问题是将集群编号映射回客户ID。这是因为，我的模型是在标准化数据上训练的，但带有客户ID的数据包含未标准化的数据。我不知道如何映射回去。importorg.apache.spark.SparkContext._importorg.apache.spark.mllib.clustering.{KMeans,KMeansModel}importorg.apache.spark.mllib.linalg.Vectorsimportscala.collection.mutable.ArrayBufferimportorg.apache.spark.mllib.fe

制成 K-means section val import scala hadoop apache-spark

hadoop - 除了 hadoop 集群中设置的时间之外，如何为长时间运行的应用程序更新委托(delegate) token

我有一个在我的Hadoop环境中运行的ApacheApex应用程序。我对应用程序没有任何问题，只是它在7天后失败了。而且，我意识到这是因为任何应用程序的集群级别设置。有什么办法，我可以每隔一段时间定期更新委托(delegate)token，以确保作业连续运行而不会失败!!我可以在网上找到任何关于如何更新hdfs委托(delegate)token的资源!!有人可以分享您的知识吗？最佳答案 Apexdocumentation中提到了这个问题.它还详细提供了2个解决方案。Hadoop系统的非侵入式将选择“自动刷新方法”。基本上你需要将你

中设长时 section delegate 中运 hadoop hdfs hadoop-yarn delegation apache-apex

hadoop - 在具有高可用性的 Hadoop 集群上运行 Spark-submit 时出现异常

我在具有高可用性的Hadoop集群上运行Spark-submit命令时遇到异常。以下命令在未启用HA的其他集群上运行良好。spark-submit--masteryarn-client--executor-memory4g--executor-cores2--classcom.domain.app.module.mainclasstarget/SNAPSHOT-jar-with-dependencies.jar同一命令在启用HA的集群上不起作用并抛出以下异常。Exceptioninthread"main"java.lang.AbstractMethodError:org.apache.

时出 Spark-submit hadoop section namenode apache-spark

linux - 混合hadoop集群

是否可以在hadoop集群中同时使用windows和linux(centos,rhel)数据节点。混合集群需要哪些配置设置？问候，hadoop用户最佳答案嘘确保集群(Windows和Linux)之间的DNS解析正确。这足以形成一个集群。关于linux-混合hadoop集群，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/38449958/

hadoop linux section stackoverflow windows cluster-computing

scala - 如何让 Spark slave 在 Hadoop+Spark 集群中使用 HDFS 输入文件 'local'？

我有一个由9台计算机组成的集群，上面安装了ApacheHadoop2.7.2和Spark2.0.0。每台计算机都运行一个HDFSdatanode和Sparkslave。其中一台计算机还运行HDFSnamenode和Sparkmaster。我已经在复制=2的HDFS中上传了几TB的gz存档。事实证明，某些文件已损坏。我想找到他们。看起来“gunzip-t”可以提供帮助。所以我试图找到一种在集群上运行Spark应用程序的方法，以便每个Spark执行程序测试存档“本地”(即，其中一个副本位于该执行程序运行的同一台计算机上)只要它是可能的。以下脚本运行，但有时Spark执行程序会处理HDFS中

amp Spark 34 scala hadoop apache-spark hdfs cluster-computing

hadoop - 在启用 kerberos 的 CDH 集群中添加 Hbase 服务

我有一个CDH集群已经在使用kerberos身份验证运行。我需要将HBase服务添加到正在运行的集群。自启用kerberos以来，正在寻找启用hbase服务的文档。欢迎使用命令行和GUI选项。还有，如果有像这样的小建表步骤那样的测试方法就好了。提前致谢! 最佳答案如果您通过ClouderaManager-AddService向导添加它，CDH会自动处理(创建/分发Kerberoskey表并添加服务) 关于hadoop-在启用kerberos的CDH集群中添加Hbase服务，我们在Sta

kerberos hadoop section stackoverflow cloudera cloudera-cdh

275 276 277278279 280 281