只想确认以下内容。请验证这是否正确: 1. 根据我的理解,当我们将文件复制到 HDFS 时,这就是文件(假设其大小 > 64MB = HDFS block 大小)被拆分为多个 block 并且每个 block 存储在不同数据节点上的时间点。
当文件被复制到 HDFS 时,文件内容已经被拆分成 block ,并且文件拆分不会在运行映射作业时发生。 Map 任务仅以这样的方式进行调度,即它们在 max 的每个 block 上工作。大小为 64 MB,具有数据局部性(即映射任务在包含数据/ block 的节点上运行)
如果文件被压缩(gzipped),文件拆分也会发生,但 MR 确保每个文件仅由一个映射器处理,即 MR 将收集位于其他数据节点的所有 gzip 文件 block ,并将它们全部提供给单个映射器。
如果我们将 isSplitable() 定义为返回 false,则会发生与上述相同的事情,即文件的所有 block 将由在一台机器上运行的一个映射器处理。 MR 将从不同的数据节点读取文件的所有 block ,并使它们可供单个映射器使用。
最佳答案
David 的回答几乎一针见血,我只是在这里详细说明一下。
这里有两个不同的概念,每个概念由 hadoop 框架中的不同实体处理
首先——
1) 将文件分成 block -- 当文件写入 HDFS 时,HDFS 将文件分成 block 并负责其复制。这是一次(大部分)完成的,然后可用于集群上运行的所有 MR 作业。这是集群范围的配置
其次——
2) 将文件拆分为输入拆分 -- 当输入路径传递给 MR 作业时,MR 作业使用路径以及配置的输入格式来拆分输入中指定的文件路径拆分,每个拆分由一个映射任务处理。每次执行作业时通过输入格式计算输入拆分
现在一旦我们掌握了这个,我们就可以理解 isSplitable() 方法属于第二类。
要真正确定这一点,请查看 HDFS 写入数据流(概念 1)
图中的第二点可能是 split 发生的地方,注意这与MR Job的运行无关
现在看一下MR作业的执行步骤
这里的第一步是通过为作业配置的输入格式计算输入拆分。
您的很多困惑源于您混淆了这两个概念,我希望这能让您更清楚一些。
关于hadoop - 关于 Hadoop/HDFS 文件分割,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9258134/
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题
对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta
好的,所以我的目标是轻松地将一些数据保存到磁盘以备后用。您如何简单地写入然后读取一个对象?所以如果我有一个简单的类classCattr_accessor:a,:bdefinitialize(a,b)@a,@b=a,bendend所以如果我从中非常快地制作一个objobj=C.new("foo","bar")#justgaveitsomerandomvalues然后我可以把它变成一个kindaidstring=obj.to_s#whichreturns""我终于可以将此字符串打印到文件或其他内容中。我的问题是,我该如何再次将这个id变回一个对象?我知道我可以自己挑选信息并制作一个接受该信
我正在编写一个小脚本来定位aws存储桶中的特定文件,并创建一个临时验证的url以发送给同事。(理想情况下,这将创建类似于在控制台上右键单击存储桶中的文件并复制链接地址的结果)。我研究过回形针,它似乎不符合这个标准,但我可能只是不知道它的全部功能。我尝试了以下方法:defauthenticated_url(file_name,bucket)AWS::S3::S3Object.url_for(file_name,bucket,:secure=>true,:expires=>20*60)end产生这种类型的结果:...-1.amazonaws.com/file_path/file.zip.A
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require,它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中,因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗? 最佳答案 我不在Bundler上工作,所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件,通常按照当前的惯例,只