HDFS架构概述

TinaGioro 2023-05-05 原文

以下内容皆来自于网络，只以学习为目的，不用于任何商业任务

HDFS 系统架构

1、块（Block）：将一个文件进行分块，默认大小在Hadoop2.x的版本中是128M，老版本是64M。写入后不能修改，但是可以追加。
2、NameNode 名称节点（NameNode）：是master节点，保存整个文件系统的目录信息、文件信息及分块信息，如果主NameNode 失效，切换到Secondary NameNode。处理客户端读写请求。
3、数据节点（DataNode）：是slave节点，分布在廉价的计算机上，用于存储Block块文件。
4、客户端（Client）：它与namenode进行交互获取文件的位置信息；与datanode交互，读取或写入数据。
5、ScondaryNameNode：并非NameNode的热备，当NameNode挂掉的适合，它并不能马上替换NameNode并提供服务辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode。在紧急情况下，可辅助恢复NameNode

不同分块并行读写操作，提高吞吐量。

NameNode

NameNode管理文件系统的命名空间，它维护着文件系统树及整棵树内所有的文件和目录，即元数据（MetaData）。元数据有三种存储方式：

内存元数据，目的是提升性能，定期从磁盘加载一份镜像到内存中。
命名空间镜像文件（fsImage），保存整个文件系统的目录树。
编辑日志文件（edits），记录文件系统元数据发生的所有更改，如文件的删除或添加等操作信息。
如果NameNode不可用，那么等同于整个HDFS文件系统不可用。如果NameNode由于故障导致磁盘数据丢失，那么等同于整个HDFS文件系统数据丢失。如果NameNode块映射关系的内存爆满，那么等同于整个HDFS文件系统无法再继续存储，也就是意味着NameNode内存决定了HDFS能够存储的块数量。

HDFS 写数据

解释：

比如客户端想上传200m 的一个文件，它首先对文件做一个分块的处理，将200m的文件分成两块，一块大小是128m 另外一块大小是 72m。

接下来客户端创建一个Distributed File System，通过FS模块向 NameNode 请求上传文件，NameNode 检查目标文件是否存在，父目录是否存在。返回是否可以上传。如果可以上传，客户端请求第一个block上传到哪几个Datanode的服务器上。NameNode 检测datanode 信息池，返回可用的3个datanode。这3个datamode是按照网络拓扑排序的，离客户端越近的会有优先级。

接下来客户端通过 FSDataOutputStream 模块与 dn1 建立连接，请求数据传输，并建立Pipeline 管道。在dn1与dn2、dn2 与 dn3之间建立通道。建立管道的意义是说如果没有管道需要上传3次给dn1 dn2 和 dn3。 pipeline 建立完毕后会返回成功信息。

接下来第7步，建立信息传输流，客户端开始往 dn1上传第一个block，以packet 为单位传输数据，大小为 64k。dn1 接收到渊源不断的数据包会复制保存，然后不做拦截，数据包通过pipeline 管道流向dn2，复制保存，再到dn3。

数据保存成功后，客户端会再次请求namenode上传第二个block。
————————————————
版权声明：本文为CSDN博主「蕾欧娜等等」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_38746310/article/details/108087122

HDFS读数据

读数据流程相比于写会更简单一些。

客户端依然需要通过 DistributedFilesystem 向NameNode 请求下载文件，NameNode通过查询元数据，找到目标文件块所在的DataNode 地址。并返回给客户端。

客户端会按照就近原则，然后选一台Datanode 服务器，建立连接，请求读取数据。然后DataNode 开始传输数据给客户端（先从磁盘里读取数据输入流，以Packet为单位来做检验）

客户端以packet为单位接收，先在本地缓存，然后写入目标文件。
————————————————
版权声明：本文为CSDN博主「蕾欧娜等等」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_38746310/article/details/108087122

SecondaryNameNode介绍

问题产生：NameNode中的元数据存储在内存中，存在断电后，元数据丢失的问题。

解决方案：在磁盘中产生FsImage备份元数据。

新的问题：当在内存中的元数据更新时，若同时更新 FsImage，会让效率降低，不更新会产生不一致问题。

解决方案：引入 Edits 文件（只进行追加操作，效率很高）。每当元数据有更新或添加元数据时，修改内存中的元数据并追加到 Edits 中。当 NameNode 节点断电，可以通过 FsImage 和 Edits 的合并，合并元数据。

新的问题：长时间添加数据到 Edits 中，会导致文件数据过大，效率降低，断电恢复元数据的时间过长。因此需要的定期进行 FsImage 和 Edits 的合并。若由 NameNode 节点来完成该操作，效率又会降低。

解决方案：引入新的节点 SecondaryNameNode，专门用于 FsImage 和 Edits 的合并。

Fsimage: NameNode 内存中元数据序列化后形成的文件。
Edits: 记录客户端更新元数据信息的每一步操作(可通过 Edits 运算出元数据)。

NameNode 启动时，先滚动 Edits 并生成一个空的 edits.inprogress，然后加载 Edits 和 Fsimage 到内存中，此时 NameNode 内存就持有最新的元数据信息。

Client 开始对 NameNode 发送元数据的增删改的请求，这些请求的操作首先会被记录到 edits.inprogress 中(查询元数据的操作不会被记录在 Edits 中，因为查询操作不会更改元数据信息)，如果此时 NameNode 挂掉，重启后会从 Edits 中读取元数据的信息。然后，NameNode 会在内存中执行元数据的增删改的操作。

由于 Edits 中记录的操作会越来越多，Edits 文件会越来越大，导致 NameNode 在启动加载 Edits 时会很慢，所以需要对 Edits 和 Fsimage 进行合并(所谓合并，就是将 Edits 和 Fsimage 加载到内存中，照着 Edits 中的操作一步步执行，最终形成新的 Fsimage)。 SecondaryNameNode 的作用就是帮助 NameNode 进行 Edits 和 Fsimage 的合并工作。

SecondaryNameNode 首先会询问 NameNode 是否需要 CheckPoint(触发 CheckPoint 需要满足两个条件中的任意一个，定时时间到和 Edits 中数据写满了)。直接带回 NameNode 是否检查结果。SecondaryNameNode 执行 CheckPoint 操作，首先会让 NameNode 滚动 Edits 并生成一个空的 edits.inprogress，滚动 Edits 的目的是给 Edits 打个标记，以后所有新的操作都写入 edits.inprogress，其他未合并的 Edits 和 Fsimage 会拷贝到 SecondaryNameNode 的本地，然后将拷贝的 Edits 和 Fsimage 加载到内存中进行合并，生成 fsimage.chkpoint，然后将 fsimage.chkpoint 拷贝给 NameNode，重命名为 Fsimage 后替换掉原来的 Fsimage。 NameNode 在启动时就只需要加载之前未合并的 Edits 和 Fsimage 即可，因为合并过的 Edits 中的元数据信息已经被记录在 Fsimage 中。
————————————————
版权声明：本文为CSDN博主「蕾欧娜等等」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_38746310/article/details/108087122

DataNode 工作机制

一个数据块在 DataNode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
DataNode 启动后向 NameNode 注册，通过后，周期性(1 小时)的向 NameNode 上报所有的块信息。
心跳是每 3 秒一次，心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器，或删除某个数据块。如果超过 10 分钟没有收到某个 DataNode 的心跳，则认为该节点不可用。
集群运行中可以安全加入和退出一些机器。
————————————————
版权声明：本文为CSDN博主「蕾欧娜等等」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_38746310/article/details/108087122

HDFS 文件系统高可用性

HDFS的高可用指的是HDFS持续对各类客户端提供读、写服务的能力，因为客户端对HDFS的读、写操作之前都要访问name node服务器，只有从name node获取元数据之后才能继续进行读、写。所以HDFS的高可用的关键在于name node上的元数据持续可用。
在 hadoop 1.x 的 HDFS 框架中只存在一个 namenode 节点，当这个 namenode 节点出现内存溢出、宕机等意外情况之后，整个系统就会停止服务，直到我们重启这个 namenode 节点。为了解决这个问题，在 hadoop2.x 的 HDFS 框架中，实现了 HA 的机制。
在高可用配置下，edit log不再存放在NameNode，而是存放在一个共享存储的地方，这个共享存储由奇数个Journal Node组成，一般是3个节点(JN小集群)，每个JN专门用于存放来自NN的 edit 日志，edit 日志由活跃状态的名称节点写入JN小集群。

解释：

Active NameNode 和 Standby NameNode：两台 NameNode 形成互备，一台处于 Active 状态，为主 NameNode，另外一台处于 Standby 状态，为备 NameNode，只有主 NameNode 才能对外提供读写服务。

主备切换控制器 ZKFailoverController：ZKFailoverController 作为独立的进程运行，对 NameNode 的主备切换进行总体控制。ZKFailoverController 能及时检测到 NameNode 的健康状况，在主 NameNode 故障时借助 Zookeeper 实现自动的主备选举和切换，当然 NameNode 目前也支持不依赖于 Zookeeper 的手动主备切换。

Zookeeper 集群：为主备切换控制器提供主备选举支持。

共享存储系统：共享存储系统是实现 NameNode 的高可用最为关键的部分，共享存储系统保存了 NameNode 在运行过程中所产生的 HDFS 的元数据。Active NameNode 和 Standby NameNode 通过共享存储系统实现元数据同步。在进行主备切换的时候，新的主 NameNode 在确认元数据完全同步之后才能继续对外提供服务。
可以看出，这里的核心是共享存储的实现，下面为大家介绍一种基于 QJM（Quorum Journal Manager）的默认存储方案。方案合并到 HDFS 的 trunk 之中并且作为默认的共享存储实现。

共享存储系统QJM

基于 QJM 的共享存储系统主要用于保存 EditLog，并不保存 FSImage 文件。FSImage 文件还是在 NameNode 的本地磁盘上。
QJM 共享存储的基本思想来自于 Paxos 算法，采用多个称为 JournalNode 的节点组成的 JournalNode 集群来存储 EditLog。每个 JournalNode 保存同样的 EditLog 副本。每次 NameNode 写 EditLog 的时候，除了向本地磁盘写入 EditLog 之外，也会并行地向 JournalNode 集群之中的每一个 JournalNode 发送写请求，只要大多数 (majority) 的 JournalNode 节点返回成功就认为向 JournalNode 集群写入 EditLog 成功。
如果有 2N+1 台 JournalNode，那么根据大多数的原则，最多可以容忍有 N 台 JournalNode 节点挂掉。

Active NameNode 提交 EditLog 到 JournalNode 集群
Standby NameNode 从 JournalNode 集群同步 EditLog

虽然 Active NameNode 向 JournalNode 集群提交 EditLog 是同步的，但 Standby NameNode 采用的是定时从 JournalNode 集群上同步 EditLog 的方式，那么 Standby NameNode 内存中文件系统镜像有很大的可能是落后于 Active NameNode 的，所以 Standby NameNode 在转换为 Active NameNode 的时候需要把落后的 EditLog 补上来。

HDFS 容错机制

HDFS 是具有很好的容错性的分布式存储系统，它利用复制技术实现数据容错能力，数据会被复制多份并存储在集群的不同节点。这样，集群中的某些机器宕机了，数据还可以从其他正常运行的机器获取。如果有一个机器宕机了，HDFS 会在其他可用的机器创建数据的副本，来保证该数据的副本数与集群的副本因子是一致的。

故障类型
我们来看看出现的故障类型。
• 节点失败：即DataNode节点失败。
• 网络故障：无法发送和接收数据。
• 数据损坏：数据在不稳定的网络传输中或在硬盘中存储出错。

故障检测机制
针对这三类故障的检测机制是这样的。

节点失败检测机制
• 每个DataNode以固定的周期向NameNode 发送心跳信号，通过这种方法告诉 NameNode 它们在正常工作。如果在一定的时间内 NameNode 没有收到 DataNode 心跳，就认为该 DataNode 宕机了。
通信故障检测机制
• 只要发送了数据，接收方就会返回确认码。如果经过几次重试之后，还是没有收到确认码，发送方会认为主机挂了或网络发生故障。
数据错误检测机制
• 在传输数据的时候，同时会发送总和检验码，当数据存储到硬盘时，总和检验码也会被存储。
• 所有的 DataNode 都会定期向 NameNode 发送数据块的存储状况。
• 在发送数据块报告前，会先检查总和校验码是否正确，如果数据存在错误就不发送该数据块的信息。

数据块存储故障：数据存储的故障容错，这块主要是磁盘介质，存储数据可能会出现错乱。在DataNode数据块上存储数据时会计算并存储校验和，当对该数据块进行读操作时会计算数据校验和，如果一场就会转而去读其他DataNode节点的备份数据。
DataNode节点故障主要是通过心跳机制，DataNode会定期通过心跳去NameNode保持联系，Namenode监测到DataNode超时没有心跳后，就会查其元数据，通知其他节点复制失效节点上的数据块到其他服务器上，保证副本数量，磁盘故障的话DataNode也是类似处理，DataNode检测到磁盘故障后，将故障块反馈给namenode进行数据块复制。

概述 HDFS xff0c xff xff0 hadoop 架构

有关HDFS架构概述的更多相关文章

阿里云RDS——产品系列概述 - 2
基础版云数据库RDS的产品系列包括基础版、高可用版、集群版、三节点企业版，本文介绍基础版实例的相关信息。RDS基础版实例也称为单机版实例，只有单个数据库节点，计算与存储分离，性价比超高。说明RDS基础版实例只有一个数据库节点，没有备节点作为热备份，因此当该节点意外宕机或者执行重启实例、变更配置、版本升级等任务时，会出现较长时间的不可用。如果业务对数据库的可用性要求较高，不建议使用基础版实例，可选择其他系列（如高可用版），部分基础版实例也支持升级为高可用版。基础版与高可用版的对比拓扑图如下所示。优势性能由于不提供备节点，主节点不会因为实时的数据库复制而产生额外的性能开销，因此基础版的性能相对于
ruby - Ruby 和 Ruby on Rails 中的三层架构 - 2
我是一名决定学习Ruby和RubyonRails的ASP.NETMVC开发人员。我已经有所了解并在RoR上创建了一个网站。在ASP.NETMVC上开发，我一直使用三层架构:数据层、业务层和UI(或表示)层。尝试在RubyonRails应用程序中使用这种方法，我发现没有关于它的信息(或者也许我只是找不到它？)。也许有人可以建议我如何在RubyonRails上创建或使用三层架构？附言我使用ruby1.9.3和RubyonRails3.2.3。最佳答案我建议在制作RoR应用程序时遵循RubyonRails(RoR)风格。Rails
ruby-on-rails - 具有六边形架构和 DCI 模式的框架和数据库适配器 - 2
我尝试用Ruby设计一个基于Web的应用程序。我开发了一个简单的核心应用程序，在没有框架和数据库的情况下在六边形架构中实现DCI范例。核心六边形中有小六边形和网络，数据库，日志等适配器。每个六边形都在没有数据库和框架的情况下自行运行。在这种方法中，我如何提供与数据库模型和实体类的关系作为独立于数据库的关系。我想在将来将框架从Rails更改为Sinatra或数据库。事实上，我如何在这个核心Hexagon中实现完全隔离的rails和mongodb的数据库适配器或框架适配器。有什么想法吗？最佳答案 ROM呢？(Ruby对象映射器)。还有
设计一个亿级高并发系统架构 - 12306火车票核心场景DDD领域建模 - 2
“架设一个亿级高并发系统，是多数程序员、架构师的工作目标。许多的技术从业人员甚至有时会降薪去寻找这样的机会。但并不是所有人都有机会主导，甚至参与这样一个系统。今天我们用12306火车票购票这样一个业务场景来做DDD领域建模。”开篇要实现软件设计、软件开发在一个统一的思想、统一的节奏下进行，就应该有一个轻量级的框架对开发过程与代码编写做一定的约束。虽然DDD是一个软件开发的方法，而不是具体的技术或框架，但拥有一个轻量级的框架仍然是必要的，为了开发一个支持DDD的框架，首先需要理解DDD的基本概念和核心的组件。一.什么是领域驱动设计(DDD)首先要知道DDD是一种开发理念，核心是维护一个反应领域概
ruby - 写密集型特征的架构 - 2
我在当前项目中使用由Oracle数据库和memcached支持的RubyonRails。有一个非常常用的功能，它依赖于单个数据库View作为数据源，并且该数据源内部有其他数据库View和表。这是一个虚拟数据库View，能够从一个地方访问所有内容，而不是物化数据库View。大多数情况下，如果用户正在使用他们希望更新的功能，那么让数据保持最新很重要。从这个View获取数据时，我将安全表内部连接到View(安全表不是View本身的一部分)，其中包含一些我们用来在更细粒度级别上控制数据访问的字段。例如，安全表有user_id,prop_1,prop_2列，其中prop_1,prop_2是数据库
ruby - 模块化、基于组件的 Sinatra 应用程序的架构 - 2
我正在开发一个包含大约10个不同功能组件的Sinatra应用程序。我们希望能够将这些组件混合并匹配到应用程序的单独实例中，完全从config.yaml文件配置，如下所示:components:-route:'/chunky'component_type:FoodListercomponent_settings:food_type:baconmax_items:400-route:'places/paris'component_type:Mappercomponent_settings:latitude:48.85387273165654longitude:2.340087890625-
【哈士奇赠书活动 - 20期】-〖从程序员到架构师〗 - 2
文章目录⭐️赠书活动-《从程序员到架构师》⭐️编辑推荐⭐️作者简介⭐️赠书活动→获奖名单⭐️赠书活动-《从程序员到架构师》内容简介：《从程序员到架构师：大数据量、缓存、高并发、微服务、多团队协同等核心场景实战》分为数据持久化层场景实战、缓存层场景实战、基于常见组件的微服务场景实战、微服务进阶场景实战和开发运维场景实战5个部分。基于对十余个架构搭建与改造项目的经验总结，介绍了大数据量、缓存、高并发、微服务、多团队协同等核心场景下的架构设计常见问题及其通用技术方案，包含冷热分离、查询分离、分表分库、秒杀架构、注册发现、熔断、限流、微服务等具体需求下的技术选型、技术原理、技术应用、技术要点等内容，将
Ruby 插件架构 - 2
我想要一个非常基本的小型基础程序示例，它读入两个插件并注册它们。这两个插件以相同的方式以不冲突的方式挂接到基础程序。就此而言，我对任何编程语言的元编程都很陌生，我不确定从哪里开始。最佳答案我已经研究这个问题一段时间了。我尝试了很多不同的方法来做这件事，并征求了很多人的建议。我仍然不确定我所拥有的是否是“正确的方法”，但它运作良好并且很容易做到。在我的例子中，我专门查看配置并引入配置插件，但原理是相同的，即使我的术语特定于cnfiguration。在非常基础的层面上，我有一个配置类，里面什么都没有——它是空的。我还有一个Confi
Ruby 语言备忘单/海报/引用/概述？ - 2
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。关闭9年前。Improvethisquestion我是一个喜欢视觉的人，想知道是否有关于Ruby的不错的大概览。你知道，就像一张引用海报，带有对象层次结构，最常用的方法等等，都是彩色的，布局清晰明了...对于像我这样的初学者来说，这会很棒......有没有你使用或偶然发现的类似东西？
HDFS+ MapReduce 数据处理与存储实验 - 2
文章目录实验二：HDFS+MapReduce数据处理与存储实验1.实验目的2.实验环境3.实验内容3.1HDFS部分3.1.1上传文件3.1.2下载文件3.1.3显示文件信息3.1.4显示目录信息3.1.5删除文件3.1.6移动文件3.2MapReduce部分3.2.0Mapreduce原理3.2.1合并和去重3.2.1.1编写Merge.java代码3.2.1.2编译执行3.2.2文件的排序3.2.2.1编写Sort.java代码3.2.2.2编译执行4.踩坑记录5.心得体会6.源码附录6.1Merge.java完整代码6.2Sort.java完整代码实验二：HDFS+MapReduce数据