最小化安装master后,确定可以连接Xshell后。克隆出slave1、slave2,修改好网络配置并且确保三台虚拟机都在一个网关里,并能连接Xshell。
使用此教程前,确保已安装过伪分布式,有一定的linux基础。(还没走稳就想跑你想啥呢,老老实实安装伪分布去)
同时对三台虚拟机操作有两种方式:
1、使用Xshall中发送键到所有对话功能
2、在一台虚拟机中配置完毕后,使用scp命令将文件发送其他主机,如果没有进行过SSH免密配置,scp命令需要输入接收方主机密码,进行SSH免密配置后不需要再输密码,非常方便。
命名约定:
安装包提前拷贝在/usr/local/package中,三台虚拟机都有。
安装的软件都在/usr/local/下,配置的数据文件地址一般在软件安装文件夹中。
基础环境配置在三台主机上都要运行命令
分别在三台对应主机上修改,bash命令使改名及时生效
hostnamectl set-hostname master
hostnamectl set-hostname slave1
hostnamectl set-hostname slave2
bash
关闭防火墙
systemctl stop firewalld
禁止防火墙开机自启
systemctl disable firewalld.service
由于最小化安装,默认自带的文件编辑是vi,没有代码高亮很不方便,于是安装vim
首先配置源
1、将源文件备份
cd /etc/yum.repos.d/ && mkdir backup && mv *repo backup/
2、下载阿里源文件
curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-8.repo
3、更新源里面的地址
sed -i -e "s|mirrors.cloud.aliyuncs.com|mirrors.aliyun.com|g " /etc/yum.repos.d/CentOS-*
sed -i -e "s|releasever|releasever-stream|g" /etc/yum.repos.d/CentOS-*
4、生成缓存
yum clean all && yum makecache
安装vim
yum install vim
在文件中添加对应ip地址
vim /etc/hosts
192.168.178.100 master
192.168.178.101 slave1
192.168.178.102 slave2
timedatectl set-timezone Asia/Shanghai
首先生成密钥(master、slave1、slave2)
输入三个回车
ssh-keygen -t rsa
cd ~/.ssh
生成后把密钥分发,使三台主机之间可以互相连接
由于现在SSH没有完成,使用scp命令需要输入主机密码
# master将生成的密钥复制到authorized_keys文件中
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
# slave1和slave2的authorized_keys文件发送给master
# 下面两行命令分别slave1和slave2运行
scp id_rsa.pub root@master:~/.ssh/id_rsa.pub_s1 # slave1
scp id_rsa.pub root@master:~/.ssh/id_rsa.pub_s2 # slave2
# master上把密钥整合,再发放给slave1和slave2
# 下面命令都在master上运行
cat id_rsa.pub_s1 >> authorized_keys
cat id_rsa.pub_s2 >> authorized_keys
scp ~/.ssh/authorized_keys root@slave1:~/.ssh/
scp ~/.ssh/authorized_keys root@slave2:~/.ssh/
注:如果遇到权限错误,使用下面两个命令
# 修改权限,不一定会用到
chmod 600 ~/.ssh/authorized_keys
chmod 700 -R ~/.ssh
查看三台主机的authorized_keys文件中有三台主机的密钥。
cat authorized_keys
测试ssh是否成功,不需要再输密码,三台虚拟机都可以正常联通。
ssh master
ssh slave1
ssh slave2
进入安装包文件夹,解压java到/usr/local目录下
tar -xzf /usr/local/package/jdk-8u221-linux-x64.tar.gz -C /usr/local
# 修改文件夹名字
mv /usr/local/jdk1.8.0_202 /usr/local/jdk
配置环境变量
vim /etc/profile
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$JAVA_HOME/bin
source /etc/profile
或者/etc/profile中可以这样配置
export JAVA_HOME=/usr/local/jdk
export JRE_HOME=/usr/local/jdk/jre
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
检测是否安装
java -version
分发文件(如果使用了Xshell发送到所有会话,则不用运行下面命令)
注:分发后记得 source /etc/profile
scp -r /usr/local/jdk root@slave1:/usr/local/
scp -r /usr/local/jdk root@slave2:/usr/local/
scp -r /etc/profile root@slave1:/etc/
scp -r /etc/profile root@slave2:/etc/
解压安装,修改文件名
tar -zxf /usr/local/package/apache-zookeeper-3.7.0-bin.tar.gz -C /usr/local/
mv /usr/local/apache-zookeeper-3.7.0-bin /usr/local/zookeeper
配置zookeeper系统环境变量($ZOOKEEPER_HOME)
vim /etc/profile
export ZOOKEEPER_HOME=/usr/local/zookeeper
export PATH=$PATH:$ZOOKEEPER_HOME/bin
source /etc/profile
修改zkServer.sh文件,加上JAVA_HOME
vim /usr/local/zookeeper/bin/zkServer.sh
export JAVA_HOME=/usr/local/jdk
export PATH=$JAVA_HOME/bin:$PATH
修改配置文件zoo.cfg
zoo.cfg里面的东西不要删,增加修改就行
cd /usr/local/zookeeper
mkdir zkdata
mkdir zkdatalog
# 进入配置文件夹
cd conf
# 复制配置模板
cp zoo_sample.cfg zoo.cfg
# 编辑配置
vim zoo.cfg
# 修改其中
dataDir=/usr/local/zookeeper/zkdata
# 增加
dataLogDir=/usr/local/zookeeper/zkdatalog
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888下面是zoo.cfg原文件

数据存储路径下创建myid
touch /usr/local/zookeeper/zkdata/myid
分发
scp -r /usr/local/zookeeper root@slave1:/usr/local/
scp -r /usr/local/zookeeper root@slave2:/usr/local/
scp -r /etc/profile root@slave1:/etc/
scp -r /etc/profile root@slave2:/etc/
source /etc/profile
修改myid,分别为123。
master中myid写入1,slave1中myid写入2,slave2中myid写入3
可以用cat /usr/local/zookeeper/zkdata/myid命令查看里面内容
# master
echo 1 > /usr/local/zookeeper/zkdata/myid
# slave1
echo 2 > /usr/local/zookeeper/zkdata/myid
# slave2
echo 3 > /usr/local/zookeeper/zkdata/myid
启动zookeeper服务(三台同时启动)
zkServer.sh start
# 如果上面的不行用这个
/usr/local/zookeeper/bin/zkServer.sh start
验证是否成功
输入jps后三台主机都显示
[root@master zkdata]# jps
6075 Jps
6031 QuorumPeerMain
查看三台主机状态,可以看到一台主机为leader,另外两台为follower。
[root@master zkdata]# zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost. Client SSL: false.
Mode: follower
[root@slave1 ~]# zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost. Client SSL: false.
Mode: follower
[root@slave2 ~]# zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost. Client SSL: false.
Mode: leader
常用命令
# 启动
zkServer.sh start
# 重启
zkServer.sh restart
# 停止
zkServer.sh stop
# 查看状态
zkServer.sh status
# 这样启动就知道错误原因了
zkServer.sh start-foreground
debug
查看日志发现报错Cannot open channel to 3 at election address
将本机zoo.cfg中的ip改为0.0.0.0
如何查看日志?
会在当前终端目录下生成zookeeper.out文件
解压安装
tar -zxf /usr/local/package/hadoop-2.7.7.tar.gz -C /usr/local/
mv /usr/local/hadoop-2.7.7 /usr/local/hadoop
配置Hadoop环境变量,注意生效
vim /etc/profile
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
source /etc/profile
配置Hadoop运行环境JAVA_HOME
hadoop-env.sh 用来定义Hadoop运行环境相关的配置信息;
cd /usr/local/hadoop/etc/hadoop
vim hadoop-env.sh
export JAVA_HOME=/usr/local/jdk
core-site.xml全局参数
设置全局参数,指定HDFS上NameNode地址为master,端口默认为9000
vim core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadoopData/tmp</value>
</property>
hdfs-site.xml 定义名称节点、数据节点的存放位置、文本副本的个数、文件读取权限等;
vim hdfs-site.xml
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/hadoopData/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/hadoopData/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property><name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.datanode.use.datanode.hostnamedatanode</name>
<value>true</value>
</property>
设置YARN运行环境JAVA_HOME参数
vim yarn-env.sh
export JAVA_HOME=/usr/local/jdk
yarn-site.xml 集群资源管理系统参数配置
设置YARN核心参数,指定ResourceManager进程所在主机为master,端口为18141
设置YARN核心参数,指定NodeManager上运行的附属服务为mapreduce_shuffle
vim yarn-site.xml
<!--nomenodeManager获取数据的方式是shuffle-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!--配置shuffle,因为map和reduce之间有个shuffle过程,-->
<property>
<name>yarn.nademanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<!-- 指定 ResourceManager 的地址-->
<property>
<name>yarn.resourcemanager.address</name>
<value>master:18040</value>
</property>
<!--调度器接口的地址。-->
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:18030</value>
</property>
<!--对每个rm-id,指定RM webapp对应的host-->
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:18088</value>
</property>
<!--对每个rm-id设置NodeManager连接的host-->
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:18025</value>
</property>
<!--对每个rm-id指定管理命令的host-->
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:18141</value>
</property>
mapred-site.xml MapReduce参数
设置计算框架参数,指定MR运行在yarn上
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.application.classpath</name>
<value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
</property>
设置节点文件,要求master为主节点; slave1、slave2为子节点
echo master > master && echo slave1 > slaves && echo slave2 >> slaves
分发文件
scp -r /usr/local/hadoop root@slave1:/usr/local/
scp -r /usr/local/hadoop root@slave2:/usr/local/
scp -r /etc/profile root@slave1:/etc/
scp -r /etc/profile root@slave2:/etc/
source /etc/profile
文件系统格式化 (只在master)
建议格式化之前存快照,三个主机都存,方便后期修改
hadoop namenode -format
启动Hadoop集群 (只在master)
/usr/local/hadoop/sbin/start-all.sh
开启集群后在三台主机上运行jps命令查看输出
[root@master hadoop]# jps
6672 SecondaryNameNode
6817 ResourceManager
7074 Jps
6483 NameNode
6031 QuorumPeerMain
[root@slave1 ~]# jps
2481 DataNode
2150 QuorumPeerMain
2586 NodeManager
2686 Jps
[root@slave2 ~]# jps
2582 NodeManager
2682 Jps
2156 QuorumPeerMain
2477 DataNode
JobHistoryServer是hadoop自带的历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。在后期学习mapreduce后,这个功能非常有用。
但是JobHistoryServer默认是不开启的,需要自己配置。但是不需要三台主机都配置,只在master主机配置就可以,流程如下。
首先master关闭集群
/usr/local/hadoop/sbin/stop-all.sh
在 mapred-site.xml 文件中配置,添加下面内容
cd /usr/local/hadoop/etc/hadoop
vim mapred-site.xml
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
开启 jobhistoryserver
/usr/local/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver
开启集群
/usr/local/hadoop/sbin/start-all.sh
最后使用jps命令查看服务是否都打开
[root@master hadoop]# jps
7569 JobHistoryServer
8083 ResourceManager
8341 Jps
7737 NameNode
7931 SecondaryNameNode
6031 QuorumPeerMain
运行mapreduce实例,结果为4.000000
cd /usr/local/hadoop/share/hadoop/mapreduce/
hadoop jar hadoop-mapreduce-examples-2.7.7.jar pi 2 3
打开jobhistory WEB UI端口查看信息,可以看到刚刚运行的实例信息。
http://192.168.178.100:19888/

我有一个在Linux服务器上运行的ruby脚本。它不使用rails或任何东西。它基本上是一个命令行ruby脚本,可以像这样传递参数:./ruby_script.rbarg1arg2如何将参数抽象到配置文件(例如yaml文件或其他文件)中?您能否举例说明如何做到这一点?提前谢谢你。 最佳答案 首先,您可以运行一个写入YAML配置文件的独立脚本:require"yaml"File.write("path_to_yaml_file",[arg1,arg2].to_yaml)然后,在您的应用中阅读它:require"yaml"arg
我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么? 最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设? 关于java-等价于Java中的RubyHash,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/22737685/
我已经在Sinatra上创建了应用程序,它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择,是开发还是生产,一些方法的逻辑应该改变,这取决于部署类型。是否有任何想法,如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现? 最佳答案 根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm
我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java,并成功地将它与另一个Java包一起使用,但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www
我有一个涉及多台机器、消息队列和事务的问题。因此,例如用户点击网页,点击将消息发送到另一台机器,该机器将付款添加到用户的帐户。每秒可能有数千次点击。事务的所有方面都应该是容错的。我以前从未遇到过这样的事情,但一些阅读表明这是一个众所周知的问题。所以我的问题。我假设安全的方法是使用两阶段提交,但协议(protocol)是阻塞的,所以我不会获得所需的性能,我是否正确?我通常写Ruby,但似乎Redis之类的数据库和Rescue、RabbitMQ等消息队列系统对我的帮助不大——即使我实现某种两阶段提交,如果Redis崩溃,数据也会丢失,因为它本质上只是内存。所有这些让我开始关注erlang和
我只想对我一直在思考的这个问题有其他意见,例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我
什么是ruby的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
之前在培训新生的时候,windows环境下配置opencv环境一直教的都是网上主流的vsstudio配置属性表,但是这个似乎对新生来说难度略高(虽然个人觉得完全是他们自己的问题),加之暑假之后对cmake实在是爱不释手,且这样配置确实十分简单(其实都不需要配置),故斗胆妄言vscode下配置CV之法。其实极为简单,图比较多所以很长。如果你看此文还配不好,你应该思考一下是不是自己的问题。闲话少说,直接开始。0.CMkae简介有的人到大二了都不知道cmake是什么,我不说是谁。CMake是一个开源免费并且跨平台的构建工具,可以用简单的语句来描述所有平台的编译过程。它能够根据当前所在平台输出对应的m
这篇文章是继上一篇文章“Observability:从零开始创建Java微服务并监控它(一)”的续篇。在上一篇文章中,我们讲述了如何创建一个Javaweb应用,并使用Filebeat来收集应用所生成的日志。在今天的文章中,我来详述如何收集应用的指标,使用APM来监控应用并监督web服务的在线情况。源码可以在地址 https://github.com/liu-xiao-guo/java_observability 进行下载。摄入指标指标被视为可以随时更改的时间点值。当前请求的数量可以改变任何毫秒。你可能有1000个请求的峰值,然后一切都回到一个请求。这也意味着这些指标可能不准确,你还想提取最小/
HashMap中为什么引入红黑树,而不是AVL树呢1.概述开始学习这个知识点之前我们需要知道,在JDK1.8以及之前,针对HashMap有什么不同。JDK1.7的时候,HashMap的底层实现是数组+链表JDK1.8的时候,HashMap的底层实现是数组+链表+红黑树我们要思考一个问题,为什么要从链表转为红黑树呢。首先先让我们了解下链表有什么不好???2.链表上述的截图其实就是链表的结构,我们来看下链表的增删改查的时间复杂度增:因为链表不是线性结构,所以每次添加的时候,只需要移动一个节点,所以可以理解为复杂度是N(1)删:算法时间复杂度跟增保持一致查:既然是非线性结构,所以查询某一个节点的时候