草庐IT

hadoop - Hadoop任务能否在单节点上并行运行

coder 2024-01-06 原文

我是 hadoop 的新手,我有以下问题。

这是我在hadoop中的理解。

1) 当任何文件写入 hadoop 时,它都以 block 的形式存储在所有数据节点上(默认 64MB)

2) 当我们运行 MR 作业时,将从该 block 创建一个拆分,并在每个数据节点上处理该拆分。

3) 每个拆分记录读取器将用于在映射器端生成键/值对。

问题:

1) 一个数据节点可以一次处理多个拆分吗?如果数据节点容量更大呢?

我认为这是 MR1 的局限性,而使用 MR2 YARN 我们可以更好地利用资源。

2) 拆分是在数据节点以串行方式读取还是可以并行处理以生成键/值对? [通过在数据节点 split 中随机访问磁盘位置]

3) map/reduce 架构中的“槽”术语是什么?我正在阅读其中一篇博客,它说 YARN 将在 Datanode 中提供更好的插槽利用率。

最佳答案

让我先谈谈我在hadoop 中的理解 部分。

  1. 存储在 Hadoop 文件系统上的文件存储在所有数据节点上。是的,它被分成 block (默认为 64MB),但是存储这些 block 的 DataNode 的数量取决于 a.File Size b.Data Nodes 上的当前负载 c.Replication Factord.Physical Proximity。 NameNode 在决定哪些数据节点将存储文件 block 时会考虑这些因素。

  2. 同样,每个数据节点不得处理拆分。首先,DataNodes 只负责管理数据的存储,不执行作业/任务。 TaskTracker 是负责在各个​​节点上执行任务的从节点。其次,只有那些包含特定作业所需数据的节点才会处理拆分,除非这些节点上的负载太高,在这种情况下,拆分中的数据将被复制到另一个节点并在那里进行处理。

现在开始提问,

  1. 同样,数据节点不负责处理作业/任务。我们通常将 dataNode + taskTracker 的组合称为节点,因为它们通常位于同一节点上,处理不同的职责(数据存储和运行任务)。一个给定的节点一次可以处理多个拆分。通常将单个拆分分配给单个 Map 任务。这转化为在单个节点上运行多个 Map 任务,这是可能的。

  2. 输入文件中的数据以串行方式读取。

  3. 节点的处理能力由Slots 的数量定义。如果一个节点有 10 个槽,则意味着它可以并行处理 10 个任务(这些任务可能是 Map/Reduce 任务)。集群管理员通常会根据每个节点的物理配置(例如内存、物理存储、处理器核心数等)来配置每个节点的槽数。

关于hadoop - Hadoop任务能否在单节点上并行运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22142049/

有关hadoop - Hadoop任务能否在单节点上并行运行的更多相关文章

  1. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  2. ruby - 其他文件中的 Rake 任务 - 2

    我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时

  3. ruby - 如何每月在 Heroku 运行一次 Scheduler 插件? - 2

    在选择我想要运行操作的频率时,唯一的选项是“每天”、“每小时”和“每10分钟”。谢谢!我想为我的Rails3.1应用程序运行调度程序。 最佳答案 这不是一个优雅的解决方案,但您可以安排它每天运行,并在实际开始工作之前检查日期是否为当月的第一天。 关于ruby-如何每月在Heroku运行一次Scheduler插件?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/8692687/

  4. ruby-on-rails - 如何在 ruby​​ 中使用两个参数异步运行 exe? - 2

    exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby​​中使用两个参数异步运行exe吗?我已经尝试过ruby​​命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe,无需等待进程完成是否有任何ruby​​gems会支持我的问题? 最佳答案 您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除

  5. ruby - 无法运行 Rails 2.x 应用程序 - 2

    我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby​​:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r

  6. ruby - 如何使用 RSpec::Core::RakeTask 创建 RSpec Rake 任务? - 2

    如何使用RSpec::Core::RakeTask初始化RSpecRake任务?require'rspec/core/rake_task'RSpec::Core::RakeTask.newdo|t|#whatdoIputinhere?endInitialize函数记录在http://rubydoc.info/github/rspec/rspec-core/RSpec/Core/RakeTask#initialize-instance_method没有很好的记录;它只是说:-(RakeTask)initialize(*args,&task_block)AnewinstanceofRake

  7. ruby - Sinatra:运行 rspec 测试时记录噪音 - 2

    Sinatra新手;我正在运行一些rspec测试,但在日志中收到了一堆不需要的噪音。如何消除日志中过多的噪音?我仔细检查了环境是否设置为:test,这意味着记录器级别应设置为WARN而不是DEBUG。spec_helper:require"./app"require"sinatra"require"rspec"require"rack/test"require"database_cleaner"require"factory_girl"set:environment,:testFactoryGirl.definition_file_paths=%w{./factories./test/

  8. ruby-on-rails - 无法让 rspec、spork 和调试器正常运行 - 2

    GivenIamadumbprogrammerandIamusingrspecandIamusingsporkandIwanttodebug...mmm...let'ssaaay,aspecforPhone.那么,我应该把“require'ruby-debug'”行放在哪里,以便在phone_spec.rb的特定点停止处理?(我所要求的只是一个大而粗的箭头,即使是一个有挑战性的程序员也能看到:-3)我已经尝试了很多位置,除非我没有正确测试它们,否则会发生一些奇怪的事情:在spec_helper.rb中的以下位置:require'rubygems'require'spork'

  9. ruby-on-rails - before_filter 运行多个方法 - 2

    是否有可能:before_filter:authenticate_user!||:authenticate_admin! 最佳答案 before_filter:do_authenticationdefdo_authenticationauthenticate_user!||authenticate_admin!end 关于ruby-on-rails-before_filter运行多个方法,我们在StackOverflow上找到一个类似的问题: https://

  10. 报告回顾丨模型进化狂飙,DetectGPT能否识别最新模型生成结果? - 2

    导读语言模型给我们的生产生活带来了极大便利,但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT:判断文本是否为机器生成的工具」中,主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具,它可以帮助我们更好地分辨文章的来源和可信度,对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能,实现和效果等展开。(文末点击“阅读原文”,查看活动回放。)Ericmitchell斯坦福大学计算机系四年级博士生,由ChelseaFinn和Chri

随机推荐