Hadoop之常用概念

韶光年华 2023-03-28 原文

心跳机制

作用：告诉主节点自己的存活状态，10分钟30s后被判定为死亡状态。

hadoop dfsadmin -report

命令查看集群状态，需要一段时间才能看到datanode的正确状态，目前集群需要十分钟左右才判断出datanode的dead状态；

datanode每隔3秒向namenode发送一次心跳报告，告诉其自己的存活状态默认情况下心跳间隔的参数由hdfs-default.xml中的下面参数决定:

<property>
  <name>dfs.heartbeat.interval</name>
  <value>3</value>
  <description>Determines datanode heartbeat interval in seconds.</description>
</property>

datanode每隔3秒向namenode发送一次心跳报告，当namenode连续10次没有收到datanode的心跳报告，会觉得datanode可能死了，并没有断定死了，此时namenode向datanode主动发送一次检查，发送一次检查的时间时5分钟，由hdfs.default.xml中的下面属性决定。

<property>
  <name>dfs.namenode.heartbeat.recheck-interval</name>
  <value>300000</value>
  <description>
    This time decides the interval to check for expired datanodes.
    With this value and dfs.heartbeat.interval, the interval of
    deciding the datanode is stale or not is also calculated.
    The unit of this configuration is millisecond.
  </description>
</property>

如果一次检查没有返回信息，这时候namenode会再进行一次检查，如果还是没有读取不到datanode的信息，此时判定死亡。也就是说namenode最终判断datanode死亡需要103s+25min=630s，也就是说namenode在连续630s中没有得到datanode的信息才认为当前的datanode宕机。

机架感知策略

机架感知：默认情况下，Hadoop机架感知是没有启用的，需要在NameNode机器的hadoop-site.xml里配置一个选项，例如：

<property>  
    <name>topology.script.file.name</name>
    <value>/xxx</value>
</property>

这个配置选项的value指定为一个可执行程序，通常为一个脚本，该脚本接受一个参数，输出一个值。接受的参数通常为datanode机器的ip地址，而输出的值通常为该ip地址对应的datanode所在的rackID，例如”/rack1”。Namenode启动时，会判断该配置选项是否为空，如果非空，则表示已经启用机架感知的配置，此时namenode会根据配置寻找该脚本，并在接收到每一个datanode的heartbeat时，将该datanode的ip地址作为参数传给该脚本运行，并将得到的输出作为该datanode所属的机架，保存到内存的一个map中。

官网脚本地址：机架感知脚本 Sample 1: Script with datafile Topology Script A sample Bash shell script:


HADOOP_CONF=/etc/hadoop/conf 

while [ $# -gt 0 ] ; do
  nodeArg=$1
  exec< ${HADOOP_CONF}/topology.data 
  result="" 
  while read line ; do
    ar=( $line ) 
    if [ "${ar[0]}" = "$nodeArg" ] ; then
      result="${ar[1]}"
    fi
  done 
  shift 
  if [ -z "$result" ] ; then
    echo -n "/default/rack "
  else
    echo -n "$result "
  fi
done

Topology data

hadoopdata1.ec.com     /dc1/rack1
hadoopdata1            /dc1/rack1
10.1.1.1               /dc1/rack2

写数据流程

正常写数据流程

客户端负责切片，一个block根据namenode返回的3台机器信息，向这三台机器建立pipeline（数据流管道），逐级返回给客户端，客户端开始以packet（64KB）为单位边上传边切分，先写缓存，缓存接收到一个package后，向下一个节点传递，同时将缓存中的数据写到磁盘中。

异常写数据流程

上传过程中如果有某个节点块上传失败，hdfs会立即进行一次重试，如果还失败，将失败节点从pipeline中删除，并将失败的节点报告给namennode。hdfs最多可以忍受至少只有一个节点上传成功，如果3个节点都失败，这时候会向namenode重新申请，重新构建pipeline。最终保证至少有一份上传成功，剩下的副本在集群上传成功后进行异步复制来的。

写操作相关配置

1)配置参数：dfs.blocksize 参数说明：客户端数据分块的大小默认值：134217728(128M)；单位：字节 (2)dfs.client-write-packet-size 参数说明：客户端写入数据时packet数据包的大小默认值：65536(64K)，单位字节 (3)dfs.bytes-per-checksum 参数说明：chunk(写入数据时最小的一个单位)，数据校验的粒度默认值：512字节注：事实上一个chunk还包含4B的校验值，因而chunk写入packet时是516B；数据与检验值的比值为128:1，所以对于一个128M的block会有一个1M的校验文件与之对应；

4. 降副本后删除冗余数据时间

block的上报间隔默认是6小时。

hadoop fsck filepath -files -blocks -racks #查看副本和block块信息

Datanode会定期将当前该结点上所有的BLOCK信息报告给Namenode，参数dfs.blockreport.intervalMsec就是控制这个报告间隔的参数。

hdfs-site.xml文件中有一个参数：

<property>
  <name>dfs.blockreport.intervalMsec</name>
  <value>21600000</value>
  <description>Determines block reporting interval in milliseconds.</description>
</property>

注：hadoop版本为hadoop-3.1.3

5. 元数据合并的过程(checkpoint)

在分布式或者伪分布集群中，每隔一段时间，会由 secondary namenode 将 namenode 上积累的所有 edits 和一个最新的 fsimage 下载到本地，并加载到内存进行 merge（这个过程称为 checkpoint）。 ①SecondaryNameNode首先会询问NameNode是否需要CheckPoint（触发CheckPoint需要满足两个条件中的任意一个，定时时间到和Edits中数据写满了）。直接带回NameNode是否检查结果。 ②SecondaryNameNode执行CheckPoint操作，首先会让NameNode滚动Edits并生成一个空的edits.inprogress，滚动Edits的目的是给Edits打个标记，以后所有新的操作都写入edits.inprogress，其他未合并的Edits和Fsimage会拷贝到SecondaryNameNode的本地。 ③然后将拷贝的Edits和Fsimage加载到内存中进行合并，生成fsimage.chkpoint，然后将fsimage.chkpoint拷贝给NameNode，重命名为Fsimage后替换掉原来的Fsimage。④NameNode在启动时就只需要加载之前未合并的Edits和Fsimage即可，因为合并过的Edits中的元数据信息已经被记录在Fsimage中。

重试次数

最大重试次数

dfs.namenode.checkpoint.max-retries=3

两个触发条件

满足其中一个触发条件，就开始进行chekpoint。

<property>
  <name>dfs.namenode.checkpoint.period</name>
  <value>3600s</value>
  <description>两次 checkpoint 之间的时间间隔360 秒</description>
</property>

  <name>dfs.namenode.checkpoint.txns</name>
  <value>1000000</value>
<description>两次checkpoint之间最大的操作记录</description>
</property>

<property>
  <name>dfs.namenode.checkpoint.check.period</name>
  <value>60s</value>
<description> 1分钟检查一次操作次数</description>

参考链接： http://blog.sina.com.cn/s/blog_13122c2790101ed52.html https://blog.csdn.net/qq_34516081/article/details/81353469 https://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843015.html https://blog.csdn.net/weixin_30278311/article/details/95780782

Hadoop 常用 code datanode gt 机架感知策略 Hadoop写数据流程降副本后删除冗余数据时间 hadoop心跳机制Hadoop 大数据

有关Hadoop之常用概念的更多相关文章

ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2
大约一年前，我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞，我可以在一个地方轻松完成，而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
电脑怎么截图？进来看（8种常用截图方法） - 2
电脑上可以截取图片吗？如果可以，该如何操作呢？相信很多小伙伴都只知道一两种截图的方式，知道的并不全面。其实，电脑上有多种方式截图的，而且非常方便。电脑怎么截图？今天我们就来教大家如何使用电脑截取图片的8种常用方式！操作环境：演示机型：Delloptiplex7050系统版本：Windows10方法一：系统自带截图具体操作：同时按下电脑的自带截图键【Windows+shift+S】，可以选择其中一种方式来截取图片：截屏有矩形截屏、任意形状截屏、窗口截屏和全屏截图。方法二：QQ截图具体操作：在电脑登录QQ，然后同时按下【Ctrl+Alt+A】，可以任意截图你需要的界面，可以把截图的页面直接下载，
Unity常用文件夹 - 2
1.Scenes游戏场景文件夹用于放置unity的场景文件 2.Plugins插件文件夹用于放置unity的依赖文件，例如dll 3.Scripts脚本文件夹用于放置unity的c#脚本文件 4.Resources游戏资源文件夹用于放置unity的各种游戏资源，比如images,prefabs,同时只有放到Resources文件夹的游戏资源才能使用Resource.load(资源路径不加后缀)加载到游戏内存中进行使用 5.EditorUnity编辑器扩展脚本文件夹usingUnityEditor;这个名称空间就是Unity编辑器的名称空间这个名称空间提供了扩展Unity编辑器的各种类【你所有
大数据之Hadoop数据仓库Hive - 2
目录：一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。特点：简单、容易上手(提供了类似sql的查询语言hql)，使得精通sql但是不了解Java编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户函数(UDF)和
WebSocket的那些事（1-概念篇） - 2
目录一、什么是Websocket二、WebSocket部分header介绍三、HTTPVSWebSocket四、什么时候使用WebSockets五、关于SockJS和STOMP一、什么是Websocket根据RFC6455标准，Websocket协议提供了一种标准化的方式在客户端和服务端之间通过TCP连接建立全双工、双向通信渠道。它是一种不同于HTTP的TCP协议，但是被设计为在HTTP基础上运行。Websocket交互始于HTTP请求，该请求会通过HTTPUpgrade请求头去升级请求，进而切换到Websocket协议。请求报文如下：GET/spring-websocket-portfoli
半个月狂飙1000亿，ChatGPT概念股凭什么？ - 2
ChatGPT掀起了AI股历史上最疯狂的一轮市值狂飙。自春节后至今，ChatGPT概念股开始了暴走模式，短短半月时间，海天瑞声、开普云等ChatGPT概念股市值累计增加了近1400亿。如此的爆炸效应，得益于ChatGPT所展现出商业化落地的巨大潜力。要知道，在此之前，无论是十年AI投入超千亿的百度，还是困在硬件化里的AI四小龙，都在重复着AI商业化难落地的故事。ChatGPT的出现，让AI从生产力的赋能者直接成为一种创造生产力的工具。随着订阅模式的推出，ChatGPT已经成为第一个以AI技术为核心直接变现的消费者应用。本文持有以下核心观点：1、ChatGPT是AI技术迭代的受益者。过去受限技术
ruby - 在 Ruby 的正则表达式中，前瞻和后视概念如何支持这种零宽度断言概念？ - 2
我刚刚经历了这个概念Zero-WidthAssertions从文档中。我想到了一些快速的问题-为什么这样的名字Zero-WidthAssertions?Look-ahead怎么了和look-behind概念支持这样的Zero-WidthAssertions概念？什么这样的?,,=s,-4个符号在模式内指示？你能帮我集中精力了解实际发生的事情我还尝试了一些小代码来理解逻辑，但对它们的输出没有那么自信:irb(main):001:0>"foresight".sub(/(?!s)ight/,'ee')=>"foresee"irb(main):002:0>"foresight".sub(/(?
Spark的常用SQL日期函数 - 2
一、获取当前时间1、current_date当前日期（年月日）Examples：SELECTcurrent_date;2、current_timestamp/now()当前日期（时间戳）Examples：SELECTcurrent_timestamp;二、从日期字段中提取时间1、year,month,day/dayofmonth,hour,minute,secondExamples：SELECTyear(now())；其他的日期函数以此类推month:1day:12（当月的第几天）dayofmonth：12hour,minute,second：分别对应时分秒2、dayofweek、dayofm
Ubuntu下Hadoop的单机安装 - 2
云计算实验中要求我们在Linux系统安装Hadoop，故来做一个简单的记录。· 注：我的操作系统环境是Ubuntu-20.04.3，安装的JDK版本为jdk1.8.0_301，安装的Hadoop版本为hadoop2.7.1。（不确定其他版本是否会出现版本兼容问题）Hadoop安装步骤如下：一、更新apt和安装vim编辑器二、配置本机无密码登录SSH 三、安装JAVA环境四、下载安装Hadoop 五、伪分布式搭建一、更新apt和安装vim编辑器1、更新aptsudoapt-getupdate2、安装vim