hadoop - 记录阅读器和记录边界

coder 2024-01-06 原文

假设我有一个输入文件，并且在 HDFS 中为该文件创建了三个 block 。假设我有三个数据节点，每个数据节点存储一个 block 。如果我有 3 个输入拆分，则 3 个映射器将并行运行以处理各自数据节点的本地数据。每个映射器使用输入格式和记录阅读器根据键值对获取输入。此场景使用 TextInputFormat，其中记录是来自文件的完整文本行。

这里的问题是如果在第一个 block 的末尾有记录中断会发生什么。

1)Hadoop在这个场景下如何读取完整的记录？

2)数据节点1是否联系数据节点2获取完整记录？

3) 如果数据节点 2 开始处理数据并识别出第一行的不完整记录会怎样？

最佳答案

Hadoop 将继续读取第一个 block 的末尾，直到到达 EOL 字符或 EOF。
数据节点在数据复制之外不相互通信(当名称节点指示时)。 HDFS客户端先从node1读取数据，然后从node2读取数据
一些例子来说明
- 如果单行记录跨越 300MB 的文件和 128MB 的 block 大小 - 映射器 2 和 3 将从文件的给定拆分偏移量(分别为 128MB 和 256MB)开始读取。他们都会向前跳，试图找到下一个 EOL 字符并从该点开始记录。在此示例中，两个映射器实际上将处理 0 条记录。
- 一个 300MB 的文件，包含两行，长度为 150MB， block 大小为 128MB - 映射器 1 将处理第一行，在 block 2 中找到 EOL 字符。映射器 2 将从偏移量 128MB( block 2)开始并向前扫描以查找偏移量 150MB 处的 EOL 字符。它将向前扫描并找到 block 3 之后的 EOF 并处理此数据。映射器 3 将从偏移量 256MB( block 3)开始，并在遇到 EOL 字符之前向前扫描到 EOF，因此处理 0 条记录
- 一个 300MB 的文件，包含 6 行，每行 50MB:
  - 映射器 1 - 偏移量 0 -> 128MB，第 1 行 (0->50)、第 2 行 (50->100)、第 3 行 (100->150)
  - 映射器 2 - 偏移量 128 MB -> 256 MB，第 4 行 (150->200)、第 5 行 (200->250)、第 6 行 (250->300)
  - 映射器 3 - 偏移量 256 MB -> 300 MB，0 行

希望对你有帮助

关于hadoop - 记录阅读器和记录边界，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13562146/

阅读器 hadoop 射器偏移 block mapreduce

有关hadoop - 记录阅读器和记录边界的更多相关文章

ruby - Sinatra:运行 rspec 测试时记录噪音 - 2
Sinatra新手；我正在运行一些rspec测试，但在日志中收到了一堆不需要的噪音。如何消除日志中过多的噪音？我仔细检查了环境是否设置为:test，这意味着记录器级别应设置为WARN而不是DEBUG。spec_helper:require"./app"require"sinatra"require"rspec"require"rack/test"require"database_cleaner"require"factory_girl"set:environment,:testFactoryGirl.definition_file_paths=%w{./factories./test/
ruby-on-rails - Rails 5 Active Record 记录无效错误 - 2
我有两个Rails模型，即Invoice和Invoice_details。一个Invoice_details属于Invoice，一个Invoice有多个Invoice_details。我无法使用accepts_nested_attributes_forinInvoice通过Invoice模型保存Invoice_details。我收到以下错误:(0.2ms)BEGIN(0.2ms)ROLLBACKCompleted422UnprocessableEntityin25ms(ActiveRecord:4.0ms)ActiveRecord::RecordInvalid(Validationfa
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
UE4 源码阅读：从引擎启动到Receive Begin Play - 2
一、引擎主循环UE版本：4.27一、引擎主循环的位置：Launch.cpp:GuardedMain函数二、、GuardedMain函数执行逻辑：1、EnginePreInit：加载大多数模块int32ErrorLevel=EnginePreInit(CmdLine);PreInit模块加载顺序：模块加载过程：（1）注册模块中定义的UObject，同时为每个类构造一个类默认对象（CDO，记录类的默认状态，作为模板用于子类实例创建）（2）调用模块的StartUpModule方法2、FEngineLoop::Init()1、检查Engine的配置文件找出使用了哪一个GameEngine类（UGame
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby-on-rails - 事件记录 : Select max of limit - 2
我正在尝试将以下SQL查询转换为ActiveRecord，它正在融化我的大脑。deletefromtablewhereid有什么想法吗？我想做的是限制表中的行数。所以，我想删除少于最近10个条目的所有内容。编辑:通过结合以下几个答案找到了解决方案。Temperature.where('id这给我留下了最新的10个条目。最佳答案从您的SQL来看，您似乎想要从表中删除前10条记录。我相信到目前为止的大多数答案都会如此。这里有两个额外的选择:基于MurifoX的版本:Table.where(:id=>Table.order(:id).
Ruby 守护进程导致 ActiveRecord 记录器 IOError - 2
我目前正在用Ruby编写一个项目，它使用ActiveRecordgem进行数据库交互，我正在尝试使用ActiveRecord::Base.logger记录所有数据库事件具有以下代码的属性ActiveRecord::Base.logger=Logger.new(File.open('logs/database.log','a'))这适用于迁移等(出于某种原因似乎需要启用日志记录，因为它在禁用时会出现NilClass错误)但是当我尝试运行包含调用ActiveRecord对象的线程守护程序的项目时脚本失败并出现以下错误/System/Library/Frameworks/Ruby.frame
ruby-on-rails - 在 Rails 中更高效地查找或创建多条记录 - 2
我有一个应用需要发送用户事件邀请。当用户邀请friend(用户)参加事件时，如果尚不存在将用户连接到该事件的新记录，则会创建该记录。我的模型由用户、事件和events_user组成。classEventdefinvite(user_id,*args)user_id.eachdo|u|e=EventsUser.find_or_create_by_event_id_and_user_id(self.id,u)e.save!endendend用法Event.first.invite([1,2,3])我不认为以上是完成我的任务的最有效方法。我设想了一种方法，例如Model.find_or_cr
ruby - 在模块/类之间共享全局记录器 - 2
在许多ruby类之间共享记录器实例的最佳(正确)方法是什么？现在我只是将记录器创建为全局$logger=Logger.new变量，但我觉得有更好的方法可以在不使用全局变量的情况下执行此操作。如果我有以下内容:moduleFooclassAclassBclassC...classZend在所有类之间共享记录器实例的最佳方式是什么？我是以某种方式在Foo模块中声明/创建记录器还是只是使用全局$logger没问题？最佳答案在模块中添加常量:moduleFooLogger=Logger.newclassAclassBclassC..
ruby - Sinatra 中的全局救援和日志记录异常 - 2
如何在出现异常时指定全局救援，如果您将Sinatra用于API或应用程序，您将如何处理日志记录？最佳答案 404可以在not_found方法的帮助下处理，例如:not_founddo'Sitedoesnotexist.'end500s可以通过调用带有block的错误方法来处理，例如:errordo"Applicationerror.Plstrylater."end错误的详细信息可以通过request.env中的sinatra.error访问，如下所示:errordo'Anerroroccured:'+request.env['si

hadoop - 记录阅读器和记录边界

有关hadoop - 记录阅读器和记录边界的更多相关文章

随机推荐