HA集群_草庐IT

hadoop - 如何在多核8节点集群中调度Hadoop Map任务？

我有一个“仅映射”(无缩减阶段)程序。输入文件的大小足以创建7个maptask，我已经通过查看生成的输出(part-000到part006)验证了这一点。现在，我的集群有8个节点，每个节点有8个内核和8GB内存，共享文件系统托管在头节点上。我的问题是，我可以选择仅在1个节点中运行所有7个映射任务，还是在7个不同的从属节点中运行7个映射任务(每个节点1个任务)。如果我可以这样做，那么我的代码和配置文件需要做哪些更改。我尝试仅在我的代码中将参数“mapred.tasktracker.map.tasks.maximum”设置为1和7，但我没有发现任何明显的时间差异。在我的配置文件中它设置为1

r - Ubuntu集群管理

我正在尝试找出一个解决方案来管理一组linux机器(操作系统:Ubuntu，~40个节点。相同的硬件)。这些机器应该是彼此的镜像，安装在一台机器上的软件需要安装在另一台机器上。我的软件需求是hadoop、R和servicemix。所有机器上的R包也需要同步(安装在一台机器上的包需要在所有其他机器上可用)我现在使用的一种解决方案是使用NFS和pssh。我希望有更好/更简单的解决方案，这会让我的生活更轻松一些。任何建议表示赞赏。最佳答案两个流行的选择是Puppet来自PuppetLabs和Chef来自OpsCode。另一种可能的机制

hadoop - hadoop 集群应该在相同的硬件上运行吗？

我记得在某处读到过，如果运行Hadoop的机器彼此之间的差异很大，Hadoop的性能会显着下降，但我似乎再也找不到该评论了。我正在考虑在我的团队不直接管理的一组VM上运行Hadoop集群，我需要知道这是否是我应该在我的请求中提出的要求。那么，我应该坚持让我的所有机器都具有相同的硬件，还是可以在不同硬件配置的不同机器上运行？谢谢。最佳答案以下论文描述了异构集群如何影响hadoopmap-reduce的性能:Inaheterogeneouscluster,thecomputingcapacitiesofnodesmayvarysig

amazon-web-services - 如何让 Zeppelin 在 EMR 集群上干净地重启？

我正在运行EMR集群并尝试使用Zeppelin笔记本进行数据分析。版本:发布标签:emr-5.2.1Hadoop发行版:Amazon2.7.3hive2.1.0Spark2.0.2飞艇0.6.2我一直遇到Zeppelin在运行查询时挂起的问题，而且我永远无法恢复它。我试过:-重新启动解释器-通过SSH进入主节点并运行zeppelin_daemon.shrestart(已尝试以hadoop/root/zeppelin身份运行，并使用选项reload运行脚本，开始/停止,upstart)每次我使用守护程序shell脚本时，它都会告诉我它已经停止/启动正常，但是当我运行状态时我得到这个:Ze

amazon-ec2 - 在 EC2 集群上安装 Hbase/Hadoop

我知道我可以分拆出一个安装了Hadoop的EC2集群(除非我错了)。Hbase怎么样？我可以预先准备好Hadoop和Hbase吗？或者我需要弄脏我的手吗？如果它不是一个选项，什么是最好的选择？Cloudera显然有一个包含两者的软件包。这是要走的路吗？感谢您的帮助。最佳答案 hbase有一组ec2脚本，可以让您快速设置并准备好运行。它允许您配置zk服务器和从节点的数量，但我不确定它们在哪些版本中可用。我正在使用0.20.6。设置一些S3/EC2信息后，您可以执行以下操作:/usr/local/hbase-0.20.6/contri

「大数据-0」虚拟机VMware安装、配置、使用、创建大数据集群教程

目录一、下载VMwareWworkstationPro16二、安装VMwareWworkstationPro16三、检查与设置VMware的网卡1.检查2.设置VMware网段四、在VMware上安装Linux虚拟机五、对安装好的虚拟机进行设置1.打开设置2.设置中文3.修改字体大小4.修改终端字体大小5.关闭虚拟机六、创建大数据集群七、对大数据集群进行配置1.配置三台虚拟机的主机名2.配置固定IP3.设置SSH免密登录4.创建hadoop用户并设置免密登录八、对虚拟机完成JDK环境的部署 1.下载JDK2.将下载好的JDK压缩包上传到虚拟机中九、对虚拟机完成防火墙、SELinux、时间同步

hadoop - 在hadoop集群中，hive应该安装在所有节点上吗？

我是Hadoop/Hive的新手，我刚刚开始阅读文档。有很多关于在集群模式下安装Hadoop的博客。另外，我知道Hive在Hadoop之上运行。我的问题是:Hadoop安装在所有集群节点上。我还应该在所有集群节点上安装Hive还是只在主节点上安装？最佳答案不，它不是您安装在工作节点上的东西。Hive是一个Hadoop客户端。只需根据您在Hivesite中看到的说明运行Hive. 关于hadoop-在hadoop集群中，hive应该安装在所有节点上吗？，我们在StackOverflow

hadoop - kafka集群中主题的分区和副本有什么区别

kafka集群中主题的分区和副本有什么区别。我的意思是两者都将消息的副本存储在一个主题中。那么真正的区别是什么？最佳答案将消息添加到主题时，调用生产者API的send(KeyedMessagemessage)方法。这意味着您的消息包含键和值。创建主题时，您可以指定希望它拥有的分区数。当您为此主题调用“发送”方法时，数据将根据您的key的哈希值(默认情况下)仅发送到一个特定分区。每个分区可能有一个副本，这意味着两个分区及其副本存储相同的数据。限制是您的生产者和消费者都只使用主副本，其副本仅用于冗余。引用文档:http://kafk

hadoop - 关于如何在 MacOS 上将 Hadoop 2.2.0 (Yarn) 安装为单节点集群的好教程

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion我正在尝试在我的MacOS上将ApacheHadoop2.2.0安装为单节点集群，但找不到任何有助于无误地完成设置的文档。到目前为止，我在Hadoop、Cloudera和其他网站上找到的所有指南要么缺乏细节，要么包含过时的信息。任何人都

Redis 分片集群

1.Redis分片集群1.1.搭建分片集群主从和哨兵可以解决高可用、高并发读的问题。但是依然有两个问题没有解决：海量数据存储问题高并发写的问题使用分片集群可以解决上述问题，如图:分片集群特征：集群中有多个master，每个master保存不同数据。每个master都可以有多个slave节点。master之间通过ping监测彼此健康状态。客户端请求可以访问集群任意节点，最终都会被转发到正确节点。具体搭建流程参考课前资料《Redis集群.md》：1.2.集群结构分片集群需要的节点数量较多，这里我们搭建一个最小的分片集群，包含3个master节点，每个master包含一个slave节点，结构如下：这