HA集群_草庐IT

hadoop - 在正在运行的 spark/hadoop 集群中添加一个 hdfs datanode

我有一个带有1个主节点和2个节点(工作节点+数据节点)的spark集群。我想添加另一个数据节点。问题是，当我执行hdfsdfs-setrep-R-w2时，结果是:1stdatanode->DFSUsed%:75.61%2nddatanode->DFSUsed%:66.78%3rddatanode->DFSUsed%:8.83%您知道如何平衡hdfs中的block，以便每个block大约为30->33%吗？谢谢最佳答案运行balancer，集群平衡实用程序。这将重新平衡数据节点之间的数据。hdfsbalancer-threshol

hadoop - 为什么 MapReduce 映射内存大于集群上的 block 大小？

下面是HadoopYarn中的观察结果:a)对于每个InputSplit或block，都会触发一个新的映射。b)集群的典型block大小为128MB。c)在大多数集群中，MapReduce.map.memory.mb将配置为大于1GB。事实上，Cloudera建议的block大小是128MB，而MapReduce.map.memory.mb是1GB当block大小只有128MB时，为什么我们需要分配1GB给映射内存(MapReduce.map.memory.mb)？理想情况下，最多128MB应该可以满足需要。为什么我们为map内存提供的block大小甚至超过block大小？

hadoop - 我们应该更改所有节点中 Hadoop 集群的主从配置文件吗？

我知道我们应该将主节点的IP地址放在conf/master文件中，并将所有从节点的IP地址放在conf/slaves文件中，每行一个。我的问题是我们应该只在主节点上这样做还是我们也应该在所有从节点上更改这两个文件？另外，如果我想让master节点同时做DataNode和TaskTracker，是不是也要把master的IP地址也写到slaves文件里？最佳答案 conf/slaves,conf/master配置文件应该只在主节点上维护而不是在从节点上。conf/masters文件是用于指定secondarynamenode主机。s

hadoop - EMR hadoop (MRv2) 集群的最大容量为 80%。如何获得剩余的20%？

我在AWS上使用ElasticMapReduce(Hadoop2.0和YARN)。配置如下:10xg2.2xlargecoreinstanceswith15GBofRAMand8CPUcoresyarn.nodemanager.vmem-check-enabled=falseyarn.scheduler.minimum-allocation-mb=2048yarn.nodemanager.resource.memory-mb=12288mapreduce.map.memory.mb=3072运行作业时，调度程序显示仅分配了81.7%的集群:UsedCapacity:81.7%Absol

hadoop - 在 5 节点集群的每个节点上设置多代理 kafka

我们有一个有5个节点的沙箱，所有五个节点都运行一个kafka代理(代理id=0)现在，我已经复制了所有5个节点上的配置文件，这些节点具有不同的代理ID和日志文件目录，以便运行多个代理-rw-r--r--1rootroot5652Apr223:01server.properties-(thisonebeingthedefault)-rw-r--r--1rootroot5675Apr223:02server1.properties-rw-r--r--1rootroot5675Apr223:02server2.properties现在我在所有5个节点上使用新的配置文件启动kafka./kaf

java - 如何使用新 API 以编程方式获取 Hadoop 集群中所有正在运行的作业？

我有一个软件组件可以将MR作业提交到Hadoop。我现在想在提交之前检查是否还有其他作业在运行。我发现新API中有一个Cluster对象，可用于查询集群中正在运行的作业，获取它们的配置并从中提取相关信息。但是我在使用它时遇到了问题。只需执行newCluster(conf)，其中conf是有效的Configuration，可用于访问此集群(例如，提交jobs)使对象保持未配置状态，并且Cluster的getAllJobStatuses()方法返回null。从配置中提取mapreduce.jobtracker.address，从中构造一个InetSocketAddress并使用Cluste

hadoop - HBase 无法在 Mac OSX 上以单节点集群模式启动

我正在尝试设置个人HBase开发环境。我正在运行hdfs和yarn，但无法启动HBase。我已经通过运行start-dfs.sh和start-yarn.sh启动了hadoop2.7.1。我已经通过测试hdfsdfs-mkdir/test并运行示例中捆绑的示例MR作业来验证这些正在运行，我已经在端口50070浏览了HDFS。我已经在端口2181上启动了zookeeper3.4.6并设置了它的dataDir。我的zoo.cfg有:dataDir=/Users/.../tools/hd/zookeeper_dataclientPort=2181我在我选择的dataDir中观察它的zookee

hadoop - 集群的可用内存空间

如何检查已使用和可用的集群大小。我可以检查分配给节点的Ram大小吗？我不知道如何继续，我是否需要使用linux命令进行检查，或者我也可以在ambari中进行检查。最佳答案也许，现在回答你的问题已经很晚了，但我的回答至少可以帮助其他人。我不确定Ambari，但我们有cli工具可以找到您要找的东西。在继续之前，我想澄清几件事。df-h是一个unix或linux命令，用于检查该特定机器的文件系统上的总空间和可用空间。要检查内存，您应该使用以下命令。alexraj84@spark-m:/etc/spark/conf$free-mtota

performance - Hadoop 集群 - 集群的正常形式和安全形式之间的性能差异

普通Hadoop集群和配置了Kerberos和SSL的安全Hadoop集群在性能上会有差异吗？考虑到两种类型的集群的机器配置相同，完成一项工作所需的时间是否不同？如果是，我们是否有关于时差的任何已知时间指标？喜欢，普通集群-1.5小时安全集群-2.5小时最佳答案是的。由于Kerberos和SSL，所有API调用都会产生开销。作业完成时间会有所不同，但如果不知道API在作业中被调用了多少次，就无法知道这是多少时间。一般来说，影响很小，但由于您正在将另一个网络组件引入您的工作流程(KDC)，您可能会遇到显着的性能下降取决于您的集群有

apache-spark - Apache Zeppelin + Spark 的按需用户集群？

我们使用cloudera来部署一个zeppelin-spark-yarn-hdfs集群。现在，只有一个zeppelin和spark实例，所有sparknotebook的执行都会影响到每个用户。例如，如果我们停止用户笔记本中的spark上下文，它会影响所有其他用户的笔记本。我已经看到zeppelin中有一个选项可以隔离解释器，但是有没有办法根据需要为每个用户提供自己的“集群”？也许使用Docker并使用zeppelin和spark为每个用户构建一个图像，并将他们的资源限制为用户集群提供的资源？我完全不知道如何实现它，或者它是否可能，但我的理想场景是像数据block那样的方法。在那里你可以