HA集群_草庐IT

Hadoop 集群配置

现在我想在我的hadoop集群中添加一个新的Datanode我是否需要停止或关闭hadoop集群并添加一个新的数据节点如何在hadoop集群中添加一个新的数据节点最佳答案基本上，您会停止集群，将节点的IP地址添加到conf/slaves，然后重新启动集群。PS:如果启动和停止很烦人(并且在具有大量文件的大型集群中可能需要长达数小时)，您可以在其中添加一些人工IP，当更多从属节点加入集群时，您只需启动它们即可。Hadoop不关心配置或关闭了多少从站:它会使用它能得到的。定义尚未存在的从站是在Hadoop中热加入从站的好习惯。

macos - 在家搭建 Hadoop 集群(2PC)

您好，我想知道是否有人对设置我的集群有一些建议。主要是为了自己的学习目的。我正在抓取新闻文章，想尝试一些机器学习的东西来进行聚类等。我的数据大约是1-10GB。在我的支配下，我得到了配备SSD/8GB内存/i5(2核)的Macbookpro配备SSD/8GB内存/i5(2核)的Macbookpro配备ubuntu的台式电脑1.5TB硬盘空间/8GB内存/i5(4核)我现在的想法是使用我的macbook作为主节点，并在我的台式机上通过vm设置2-4个从节点。也许我可以获得8-16GB的额外内存。我不太关心性能。或者我应该放弃我的想法并选择AmazonEC2路线？提前致谢

linux安装搭建配置docker,mysql,nacos,redis哨兵集群,kafka,elasticsearch,kibana,IK分词器,安装Rabbitmq,安装并配置maven

目录搭建docker1.2安装yum工具 1.3更新阿里镜像源1.4下载docker1.5关闭防火墙1.6启动docker1.7查看docker版本1.8配置阿里云镜像1.8.1创建文件夹1.8.2在文件夹内新建一个daemon.json文件1.8.3重载文件1.9重启docker2安装MySQL3安装nacos3.1拉取nacos镜像并启动3.2启动nacos命令3.3命令敲完了，检查一下Nacos运行状态.4.安装redis集群及哨兵redis版本主从结构启动主redis启动1号从redis启动2号从redis查看主从信息inforeplication哨兵sentinel哨兵1号启动2号哨

Hadoop 客户端和集群分离

我是hadoop的新手，也是linux的新手。我的教授要求我们使用端口映射或VPN将Hadoop客户端和集群分开。我不明白这种分离的意义。谁能给我一个提示？现在我明白了集群客户端分离的想法。我认为需要在客户端机器上安装hadoop。当客户端提交一个hadoop作业时，它被提交给集群的主人。还有一些天真的想法:1.创建客户端机器并安装hadoop。2.设置fs.default.name为hdfs://master:90003.设置dfs.namenode.name.dir为file://master/home/hduser/hadoop_tmp/hdfs/namenode是否正确？4.然

hadoop - "No common protection layer between client and server"尝试与 Kerberized Hadoop 集群通信时

我正在尝试以编程方式与Kerberized(CDH5.3/HDFS2.5.0)的Hadoop集群进行通信。我在客户端有一个有效的Kerberostoken。但是我收到如下错误，“客户端和服务器之间没有公共(public)保护层”。这个错误是什么意思，有什么方法可以修复或解决它吗？这与HDFS-5688有关吗？？该票似乎暗示必须设置属性“hadoop.rpc.protection”，大概是“身份验证”(也根据例如this)。这是否需要在集群中的所有服务器上设置，然后集群反弹？我无法轻松访问集群，因此我需要了解“hadoop.rpc.protection”是否是真正的原因。看起来'auth

apache-spark - 如何将作业提交到其他集群上的 yarn ？

我有一个安装了spark的docker容器，我正在尝试使用marathon将作业提交到其他集群上的yarn。docker容器具有yarn和hadoopconf目录的导出值，yarn文件还包含emrmasterip的正确地址，但我不确定它从哪里作为本地主机？ENVYARN_CONF_DIR="/opt/yarn-site.xml"ENVHADOOP_CONF_DIR="/opt/spark-2.2.0-bin-hadoop2.6"yarn.xmlyarn.resourcemanager.hostnamexx.xxx.x.xx命令:"cmd":"/opt/spark-2.2.0-bin-h

java - 如何调整hadoop集群中的 "DataNode maximum Java heap size"

我在google中搜索以查找有关如何调整值的信息-DataNodemaximumJavaheapsize，除了这个-https://community.hortonworks.com/articles/74076/datanode-high-heap-size-alert.htmlhttps://docs.oracle.com/cd/E19900-01/819-4742/abeik/index.html但未找到计算DataNode最大Java堆大小值的公式DataNode最大Java堆大小的默认值为1G我们将这个值增加到5G，因为在某些情况下我们从数据节点日志中看到关于堆大小的错误但这

java - 有没有webhdfs的Java接口(interface)从hadoop集群获取数据

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭6年前。Improvethisquestion我想写一个hadoop集群外的项目，可以从集群中读取数据，但是office网站提供的文档只给出了“curl”的方法。有Java访问hadoop集群的接口(interface)吗？

hadoop - 多节点hadoop集群安装推荐

安装Hadoop1.0的最佳方式是什么(无论是Apachehadoop还是CDH)？CDH似乎有某种安装管理器，但不知何故，经过几个小时的搜索后，我无法在Web上找到好的信息。我只找到有关伪模式安装的文档。最佳答案只需访问Cloudera地点。他们都有ClouderaManager免费，这是非常好的开始点和独立CDH包裹。他们也有完整的setofdocumentation例如此类产品每个版本的安装指南。当然，我会推荐Cloudera博客和官方ApacheHadoop站点文档，以便更好地理解。

java - 重命名 HDFS 上的文件在本地模式下有效，但在集群模式下无效

我有一个对象负责在HDFS上打开一个文件进行写入。一旦close()方法被调用，该对象就会重命名它刚刚写入的文件。该机制在本地模式下运行时有效，但在集群模式下无法重命名文件。//ConstructorpublicWriteStream(){path=String.format("in_progress/file");try{OutputStreamoutputStream=fileSystem.create(newPath(hdfs_path+path),newProgressable(){publicvoidprogress(){System.out.print(".");}});w