草庐IT

Hadoop集群搭建

朴拙数科 2023-04-05 原文

# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

基础集群搭建

# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

1.按照左侧虚拟机名称修改对应主机名

在master环境执行

hostnamectl set-hostname master
bash

在slave1环境执行

hostnamectl set-hostname slave1
bash

在slave2环境执行

hostnamectl set-hostname slave2
bash

2.修改云主机host文件添加左侧master、slave1、slave2三个节点IP与主机名映射

(1)在master,slave1,salve2环境执行如下操作

vim /etc/hosts

(2)在hosts文件最后追加如下内容

master本地ip master
slave1本地ip slave1
slave2本地ip slave2

3. 时区更改为上海时间(CST+0800时区)

在master,slave1,salve2环境执行如下操作

timedatectl set-timezone Asia/Shanghai

关闭防火墙,在master,slave1,salve2环境执行如下操作

systemctl stop firewalld
systemctl disable firewalld

关闭三master,slave1,salve2环境的Linux安全机制,在master,slave1,salve2环境执行如下操作

vim /etc/sysconfig/selinux # 将SELINUX=enforcing 改为SELINUX=disabled

4. 环境已经安装NTP,修改master节点NTP配置,设置master为本地时间服务器,屏蔽默认server,服务器层级设为10

在master环境执行如下操作

vim /etc/ntp.conf

在文件最后追加如下内容

server 127.127.1.0
fudge 127.127.1.0 stratum 10

5.开启NTP服务

在master环境执行如下操作

/bin/systemctl restart ntpd.service

6. 添加定时任务–在早十-晚五时间段内每隔半个小时同步一次本地服务器时间(24小时制、使用用户root任务调度crontab,服务器地址使用主机名)

在slave1,slave2环境执行如下命令

ntpdate master
crontab -e

在文件最后追加如下内容

*/30 10-17 * * * usr/sbin/ntpdate master

7. master节点生成公钥文件id_rsa.pub(数字签名RSA,用户root,主机名master)

master环境下执行

ssh-keygen # 三次回车

8. 建⽴master⾃身使⽤root⽤户ssh访问localhost免密登录

master环境下执行

ssh-copy-id localhost

9. 建⽴master使⽤root⽤户到slave1/slave2的ssh免密登录访问

在master环境执行

ssh-copy-id slave1
ssh-copy-id slave2

10.将jdk安装包解压到/usr/java目录

在master,slave1,salve2环境执行如下操作

mkdir /usr/java
tar -zxvf /usr/package277/jdk-8u221-linux-x64.tar.gz -C /usr/java/

11.文件/etc/profile中配置系统环境变量JAVA_HOME

在master,slave1,slave2环境执行如下操作

vim /etc/profile

在文件最后追加如下内容

export JAVA_HOME=/usr/java/jdk1.8.0_221
export CLASSPATH= J A V A H O M E / l i b / e x p o r t P A T H = JAVA_HOME/lib/ export PATH= JAVAHOME/lib/exportPATH=PATH:$JAVA_HOME/bin

使环境变量生效

source /etc/profile

# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

Zookeeper搭建

# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

1.将zookeeper安装包解压到指定路径/usr/zookeeper

在master,slave1,salve2环境执行如下操作

mkdir /usr/zookeeper
tar -zxvf /usr/package277/zookeeper-3.4.14.tar.gz -C /usr/zookeeper/

2.文件/etc/profile中配置系统变量ZOOKEEPER_HOME

在master,slave1,salve2环境执行如下操作

vim /etc/profile

在文件最后追加如下内容

export ZOOKEEPER_HOME=/usr/zookeeper/zookeeper-3.4.14
export PATH= P A T H : PATH: PATH:ZOOKEEPER_HOME/bin

使环境变量生效

source /etc/profile

3. Zookeeper的默认配置文件为Zookeeper安装路径下conf/zoo_sample.cfg

在master,slave1,salve2环境执行如下操作

cd /usr/zookeeper/zookeeper-3.4.14/conf
mv zoo_sample.cfg zoo.cfg

4. 设置数据存储路径(dataDir)为/usr/zookeeper/zookeeper-3.4.14/zkdata

5. 设置日志文件路径(dataLogDir)为/usr/zookeeper/zookeeper-3.4.14/zkdatalog

6. 设置集群列表(要求master为1号服务器,slave1为2号服务器,slave2为3号服务器)

7. 创建所需数据存储文件夹、日志存储文件夹

4,5,6,7题如下

在master,slave1,salve2环境执行如下操作

cd /usr/zookeeper/zookeeper-3.4.14/
mkdir zkdata zkdatalog
cd /usr/zookeeper/zookeeper-3.4.14/conf
vim zoo.cfg

将dataDir字段的值修改为如下

dataDir=/usr/zookeeper/zookeeper-3.4.14/zkdata

将dataLogDir字段的值修改为如下

dataLogDir=/usr/zookeeper/zookeeper-3.4.14/zkdatalog

在文件最后追加如下内容

server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888

8. 数据存储路径下创建myid,写入对应的标识主机服务器序号

在master环境执行如下操作

cd /usr/zookeeper/zookeeper-3.4.14/zkdata
echo 1 >> myid

在slave1环境执行如下操作

cd /usr/zookeeper/zookeeper-3.4.14/zkdata
echo 2 >> myid

在slave2环境执行如下操作

cd /usr/zookeeper/zookeeper-3.4.14/zkdata
echo 3 >> myid

9. 启动服务,查看进程QuorumPeerMain是否存在

在master,slave1,salve2环境执行如下操作

zkServer.sh start
jps

10.查看各节点服务器角色是否正常

在master,slave1,salve2环境执行如下操作

zkServer.sh status

# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

hadoop集群搭建

# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

1. 将Hadoop安装包解压到指定路径/usr/hadoop

在master,slave1,salve2环境执行如下操作

mkdir /usr/hadoop
tar -zxvf /usr/package277/hadoop-2.7.7.tar.gz -C /usr/hadoop/

2. 文件/etc/profile中配置环境变量HADOOP_HOME

在master,slave1,salve2环境执行如下操作

vim /etc/profile

在文件最后追加如下内容

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.7
export CLASSPATH= C L A S S P A T H : CLASSPATH: CLASSPATH:HADOOP_HOME/lib
export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin

使环境变量生效

source /etc/profile

3. 配置Hadoop运行环境JAVA_HOME

在master,slave1,salve2环境执行如下操作

cd /usr/hadoop/hadoop-2.7.7/etc/hadoop
vim hadoop-env.sh

在文件最后追加如下内容

export JAVA_HOME=/usr/java/jdk1.8.0_221

4. 设置全局参数,指定HDFS上NameNode地址为master,端口默认为9000

5. 指定临时存储目录为本地/root/hadoopData/tmp

4,5题如下,在master,slave1,salve2环境执行如下操作

vim core-site.xml

在configuration标签里加入如下内容:

fs.default.name hdfs://master:9000 hadoop.tmp.dir /root/hadoopData/tmp

6. 设置HDFS参数,指定备份文本数量为2

7. 设置HDFS参数,指定NN存放元数据信息路径为本地/root/hadoopData/name

8. 设置HDFS参数,关闭hadoop集群权限校验

6,7,8题如下,在master,slave1,salve2环境执行如下操作

vim hdfs-site.xml

在configuration标签里加入如下内容:

dfs.replication 2 dfs.namenode.name.dir /root/hadoopData/name dfs.datanode.data.dir /root/hadoopData/data dfs.permissions false dfs.datanode.use.datanode.hostname true

9. 设置YARN运行环境JAVA_HOME参数

在master,slave1,salve2环境执行如下操作

vim yarn-env.sh

在文件最后追加如下内容

export JAVA_HOME=/usr/java/jdk1.8.0_221

10.设置YARN核心参数,指定ResourceManager进程所在主机为master,端口为18141

在master,slave1,salve2环境执行如下操作

vim yarn-site.xml

在configuration标签里加入如下内容:

yarn.resourcemanager.admin.address master:18141 yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.shuffleHandler yarn.nodemanager.aux-services mapreduce_shuffle

11. 设置计算框架参数,指定MR运行在yarn上

在master,slave1,salve2环境执行如下操作

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

在configuration标签里加入如下内容:

mapreduce.framework.name yarn

12. 设置节点文件,要求master为主节点; slave1、slave2为子节点

在master,slave1,salve2环境执行如下操作

cd /usr/hadoop/hadoop-2.7.7/etc/hadoop
vim master

在文件最后追加如下内容:

master

保存退出,继续执行如下操作:

vim slaves

在文件最后追加如下内容:(清空slaves文件中原有内容)

slave1
slave2

保存退出

13. 对文件系统进行格式化

在master环境执行如下操作

cd /usr/hadoop/hadoop-2.7.7
hadoop namenode -format

14. 启动Hadoop集群查看各节点服务

在master,slave1,salve2环境执行如下操作

sbin/start-all.sh # 在交互界面输入yes

15. 查看集群运行状态是否正常

在master环境执行如下操作

jps

# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

Hive搭建

# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

1. 环境中已经安装mysql-community-server,关闭mysql开机自启服务

在slave2环境执行如下操作

systemctl disable mysqld

2. 开启MySQL服务

在slave2环境执行如下操作

systemctl start mysqld

3. 判断mysqld.log日志下是否生成初临时密码

在slave2环境执行如下操作

grep “temporary password” /var/log/mysqld.log # 观察初始密码并复制下来

4. 设置mysql数据库本地root用户密码为123456

在slave2环境执行如下操作

mysql -uroot -p # 此处输入上个命令的输出最后的一串初始密码

继续执行如下操作:

set global validate_password_policy=0;
set global validate_password_length=4;
alter user root@localhost identified by ‘123456’;

\q退出数据库并使用新密码登陆数据库

mysql -uroot -p # 输入123456
create user ‘root’@‘%’ identified by ‘123456’;
GRANT ALL PRIVILEGES ON . TO ‘root’@‘%’ IDENTIFIED BY ‘123456’ WITH GRANT OPTION;
flush privileges;

\q退出数据库

1. 将Hive安装包解压到指定路径/usr/hive

在master,slave1执行如下操作

mkdir /usr/hive
tar -zxvf /usr/package277/apache-hive-2.3.4-bin.tar.gz -C /usr/hive/

2. 文件/etc/profile中配置环境变量HIVE_HOME

在master,slave1执行如下操作

vim /etc/profile

在文件最后追加如下内容

export HIVE_HOME=/usr/hive/apache-hive-2.3.4-bin
export PATH= P A T H : PATH: PATH:HIVE_HOME/bin

使环境变量生效

source /etc/profile

3. 修改HIVE运行环境,配置Hadoop安装路径HADOOP_HOME

4. 修改HIVE运行环境,配置Hive配置文件存放路径HIVE_CONF_DIR

5. 修改HIVE运行环境,配置Hive运行资源库路径HIVE_AUX_JARS_PATH

3,4,5题在master,slave1执行如下操作

cd /usr/hive/apache-hive-2.3.4-bin/conf/
mv hive-env.sh.template hive-env.sh
vim hive-env.sh

在文件最后追加如下内容

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.7
export HIVE_CONF_DIR=/usr/hive/apache-hive-2.3.4-bin/conf
export HIVE_AUX_JARS_PATH=/usr/hive/apache-hive-2.3.4-bin/lib

6.解决jline的版本冲突

在master,slave1执行如下操作

cp /usr/hive/apache-hive-2.3.4-bin/lib/jline-2.12.jar /usr/hadoop/hadoop-2.7.7/share/hadoop/yarn/lib/

# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

1. 驱动JDBC拷贝至hive安装目录对应lib下

在slave1环境下执行

cp /usr/package277/mysql-connector-java-5.1.47-bin.jar /usr/hive/apache-hive-2.3.4-bin/lib/

2. 配置元数据数据存储位置为/user/hive_remote/warehouse

3. 配置数据库连接为MySQL

4. 配置连接JDBC的URL地址主机名及默认端口号3306

5. 配置数据库连接用户

6. 配置数据库连接密码

在slave1环境下执行

vim hive-site.xml

在文件中加入如下内容

hive.metastore.warehouse.dir /user/hive_remote/warehouse javax.jdo.option.ConnectionURL jdbc:mysql://slave2:3306/hive?createDatabaseIfNotExist=true&characterEncoding=UTF-8&useSSL=false JDBC connect string for a JDBC metastore javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver javax.jdo.option.ConnectionUserName root javax.jdo.option.ConnectionPassword 123456 hive.metastore.schema.verification false datanucleus.schema.autoCreateALL true

# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

1. 配置元数据存储位置为/user/hive_remote/warehouse

2. 关闭本地metastore模式(1分)

3.配置指向metastore服务的主机为slave1,端口为9083

在master环境执行如下操作

vim hive-site.xml

在文件中加入如下内容

hive.metastore.warehouse.dir /user/hive_remote/warehouse hive.metastore.local false hive.metastore.uris thrift://slave1:9083

# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

1. 服务器端初始化数据库,启动metastore服务

在slave1环境下执行

schematool -dbType mysql -initSchema

2. 客户端开启进入hive,创建hive数据库

在slave1环境下执行

cd /usr/hive/apache-hive-2.3.4-bin
bin/hive --service metastore

在master环境执行

bin/hive
create database hive;

有关Hadoop集群搭建的更多相关文章

  1. hadoop安装之保姆级教程(二)之YARN的配置 - 2

    1.1.1 YARN的介绍 为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN. ApacheYARN(YetanotherResourceNegotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式的操作系统平台,⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现,但是因为具有⾜够的通⽤性,同样可以⽀持其他的分布式计算模

  2. 【详解】Docker安装Elasticsearch7.16.1集群 - 2

    开门见山|拉取镜像dockerpullelasticsearch:7.16.1|配置存放的目录#存放配置文件的文件夹mkdir-p/opt/docker/elasticsearch/node-1/config#存放数据的文件夹mkdir-p/opt/docker/elasticsearch/node-1/data#存放运行日志的文件夹mkdir-p/opt/docker/elasticsearch/node-1/log#存放IK分词插件的文件夹mkdir-p/opt/docker/elasticsearch/node-1/plugins若你使用了moba,直接右键新建即可如上图所示依次类推创建

  3. 大数据之Hadoop数据仓库Hive - 2

    目录:一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。特点:简单、容易上手(提供了类似sql的查询语言hql),使得精通sql但是不了解Java编程的人也能很好地进行大数据分析;灵活性高,可以自定义用户函数(UDF)和

  4. 关于ES集群信息的一些查看 - 2

    文章目录查看ES信息查看节点信息查看分片信息实际场景下ES分片及副本数量应该怎么分关于ES的灵活使用查看ES信息查看版本kibana:GET/查看节点信息GET/_cat/nodes?v解释:ip:集群中节点的ip地址;heap.percent:堆内存的占用百分比;ram.percent:总内存的占用百分比,其实这个不是很准确,因为buff/cache和available也被当作使用内存;cpu:cpu占用百分比;load_1m:1分钟内cpu负载;load_5m:5分钟内cpu负载;load_15m:15分钟内cpu负载;node.role:上图的dilmrt代表全部权限master:*代表

  5. linux查看es节点使用情况,elasticsearch(es) 如何查看当前集群中哪个节点是主节点(master) - 2

    elasticsearch查看当前集群中的master节点是哪个需要使用_cat监控命令,具体如下。查看方法es主节点确定命令,以kibana上查看示例如下:GET_cat/nodesv返回结果示例如下:ipheap.percentram.percentcpuload_1mload_5mload_15mnode.rolemastername172.16.16.188529952.591.701.45mdi-elastic3172.16.16.187329950.990.991.19mdi-elastic2172.16.16.231699940.871.001.03mdi-elastic4172

  6. LinuxGUI自动化测试框架搭建(二十二)-框架主入口main.py设计&log日志调用 - 2

    (二十二)-框架主入口main.py设计&log日志调用和生成1测试目的2测试需求3需求分析4详细设计4.1新建存放日志目录log4.1.1配置config.py中写入log的目录4.2`baseInfo.py`中加入日志4.3`test_gedit.py`中加入日志4.4主函数入口main.py中调用日志5调用日志主函数main.py源码6`baseInfo.py`源码7`test_gedit.py`源码8运行效果9目前框架结构1测试目的组织运行所有的测试用例,并调用日志模块,便于问题定位。

  7. 基于ActiveMQ搭建MQTT服务备忘(二):webapp集成 - 2

    (1)为什么写这个话题(Why)读万卷书不如行千里路。这次搭建MQTT服务,遇到了一些误解,特此记录备忘。主要包括:(1)服务(Broker)的账户管理与网页管理平台的账户(2)与web应用的集成(Spring系)(2)ActiveMQ版本选择因为JAVA环境是JDK8,所以按兼容性考虑选择了ActiveMQ5.15的最后版本5.15.15。如果你是JDK11则可考虑ActiveMQ的最新版本5.17或5.18。ActiveMQ支持MQTTv3.1.1andv3.1。(3)ActiveMQ与web应用的集成主要介绍与Spring系的webapp集成(SpringBoot和SpringMVC)。

  8. kubernetes集群划分节点 - 2

    Kubernetes(K8s)是一个用于管理容器化应用程序的开源平台,可以帮助开发人员更轻松地部署、管理和扩展应用程序。在Kubernetes中,集群划分是一种重要的概念,可以帮助我们更好地组织和管理集群中的节点和资源。本文将介绍如何使用Kubernetes对集群进行划分,并提供详细的操作示例,希望能够帮助读者更好地了解和使用Kubernetes平台。Node划分Node划分是将集群中的节点按照一定的规则进行划分。在Kubernetes中,可以使用NodeSelector和Affinity机制来实现Node划分。NodeSelectorNodeSelector是一种将Pod调度到符合特定节点标

  9. 【微服务笔记23】使用Spring Cloud微服务组件从0到1搭建一个微服务工程 - 2

    这篇文章,主要介绍如何使用SpringCloud微服务组件从0到1搭建一个微服务工程。目录一、从0到1搭建微服务工程1.1、基础环境说明(1)使用组件(2)微服务依赖1.2、搭建注册中心(1)引入依赖(2)配置文件(3)启动类1.3、搭建配置中心(1)引入依赖(2)配置文件(3)启动类1.4、搭建API网关(1)引入依赖(2)配置文件(3)启动类1.5、搭建服务提供者(1)引入依赖(2)配置文件(3)启动类1.6、搭建服务消费者(1)引入依赖(2)配置文件(3)启动类1.7、运行测试一、从0到1搭建微服务工程1.1、基础环境说明(1)使用组件这里主要是使用的SpringCloudNetflix

  10. Ubuntu下Hadoop的单机安装 - 2

            云计算实验中要求我们在Linux系统安装Hadoop,故来做一个简单的记录。· 注:我的操作系统环境是Ubuntu-20.04.3,安装的JDK版本为jdk1.8.0_301,安装的Hadoop版本为hadoop2.7.1。(不确定其他版本是否会出现版本兼容问题)Hadoop安装步骤如下:        一、更新apt和安装vim编辑器        二、配置本机无密码登录SSH        三、安装JAVA环境        四、下载安装Hadoop        五、伪分布式搭建一、更新apt和安装vim编辑器1、更新aptsudoapt-getupdate2、安装vim

随机推荐