hadoop - MapReduce 不适合哪些任务？

coder 2024-01-08 原文

我想知道是否有任何任务示例不适合 MapReduce。有一些具体的例子会很棒。谢谢!

最佳答案

其中一些可能是主观的，所以我会尽量坚持最认同的:

流数据 -- MapReduce 本质上是批处理的。您在 MapReduce 中编写的内容时不时地运行，但很难获得它，因此它会处理实时传入的数据流。有一些项目正在计划解决这个问题，例如 Storm。
实时分析 -- 同样，MapReduce 是批处理的，专为聚合和大规模性能量身定制，无法快速获得答案。每个作业预计会有 1-2 分钟的开销，因此使用 MapReduce 获得不到一分钟的响应时间非常具有挑战性。这与作为软件的 Hadoop 而不是作为范例的 MapReduce 有很大关系。
记录提取 -- 就像您无法在短时间内运行分析一样，提取单个记录或小块数据也不是一件容易的事与 MapReduce。 MapReduce擅长的是全表扫描，而不是挑出一两条记录。这是 HBase 填补的利基市场。
大规模重组 -- 不确定用什么词来形容这个词比较合适，但是任何需要通过网络重组大量数据的事情都可能对您的网络基础架构构成挑战。这是因为这些问题没有充分利用数据局部性。这方面的一些示例是总订单排序和跨大型数据集的连接。

关于hadoop - MapReduce 不适合哪些任务？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11804905/

有关hadoop - MapReduce 不适合哪些任务？的更多相关文章

ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby - 如何使用 RSpec::Core::RakeTask 创建 RSpec Rake 任务？ - 2
如何使用RSpec::Core::RakeTask初始化RSpecRake任务？require'rspec/core/rake_task'RSpec::Core::RakeTask.newdo|t|#whatdoIputinhere?endInitialize函数记录在http://rubydoc.info/github/rspec/rspec-core/RSpec/Core/RakeTask#initialize-instance_method没有很好的记录；它只是说:-(RakeTask)initialize(*args,&task_block)AnewinstanceofRake
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby-on-rails - Rake 任务仅调用一次时执行两次 - 2
我写了一个非常简单的rake任务来尝试找到这个问题的根源。namespace:foodotaskbar::environmentdoputs'RUNNING'endend当在控制台中执行rakefoo:bar时，输出为:RUNNINGRUNNING当我执行任何rake任务时会发生这种情况。有没有人遇到过这样的事情？编辑上面的rake任务就是写在那个.rake文件中的所有内容。这是当前正在使用的Rakefile。requireFile.expand_path('../config/application',__FILE__)OurApp::Application.load_tasks这里
ruby-on-rails - 您希望看到哪些 Rails 插件？ - 2
您认为可以作为插件很好地存在于您的Rails应用程序中必须实现的哪些行为？您过去曾搜索过哪些插件功能但找不到？哪些现有的Rails插件可以改进或扩展，如何改进或扩展？最佳答案我希望在管理界面中看到一个引擎插件，它提供了应用程序中所有模型的仪表板摘要，以及可配置的事件图表。关于ruby-on-rails-您希望看到哪些Rails插件？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questio
ruby - 帮助使用 Ruby 中的 "Whenever"gem 来执行 cron 任务 - 2
我以前没有使用过cron，所以我不能确定我这样做是对的。我想要自动化的任务似乎没有运行。我在终端中执行了这些步骤:sudogeminstall每当切换到应用程序目录无论何时。(这创建了文件schedule.rb)我将此代码添加到schedule.rb:every10.minutesdorunner"User.vote",environment=>"development"endevery:hourdorunner"Digest.rss",:environment=>"development"end我将此代码添加到deploy.rb:after"deploy:symlink","depl
ruby - 在 rake 任务中运行 capybara - 2
如何在Rake任务中运行Capybara功能？例如:访问('http://google.com')谢谢! 最佳答案在任务中尝试这样的事情:require'capybara'require'capybara/dsl'Capybara.current_driver=:seleniumBrowser=Class.new{includeCapybara::DSL}page=Browser.new.pagepage.visit("http://www.google.com")puts(page.html)
ruby - 实现k最近邻需要哪些数据？ - 2
我目前有一个reddit克隆类型的网站。我正在尝试根据我的用户之前喜欢的帖子推荐帖子。看起来K最近邻或k均值是执行此操作的最佳方法。我似乎无法理解如何实际实现它。我看过一些数学公式(例如k表示维基百科页面)，但它们对我来说并没有真正意义。有人可以推荐一些伪代码，或者可以查看的地方，以便我更好地了解如何执行此操作吗？最佳答案 K最近邻(又名KNN)是一种分类算法。基本上，您采用包含N个项目的训练组并对它们进行分类。如何对它们进行分类完全取决于您的数据，以及您认为该数据的重要分类特征是什么。在您的示例中，这可能是帖子类别、谁发布了该项
ruby - 在 Rakefile 中动态生成 Rake 测试任务(基于现有的测试文件) - 2
我正在根据Rakefile中的现有测试文件动态生成测试任务。假设您有各种以模式命名的单元测试文件test_.rb.所以我正在做的是创建一个以“测试”命名空间内的文件名命名的任务。使用下面的代码，我可以用raketest:调用所有测试require'rake/testtask'task:default=>'test:all'namespace:testdodesc"Runalltests"Rake::TestTask.new(:all)do|t|t.test_files=FileList['test_*.rb']endFileList['test_*.rb'].eachdo|task|n
ruby-on-rails - 使用 Rspec 测试 rake 任务不接受参数 - 2
根据thispostbyStephenHagemann，我正在尝试为我的一个rake任务编写Rspec测试.lib/tasks/retry.rake:namespace:retrydotask:message,[:message_id]=>[:environment]do|t,args|TextMessage.new.resend!(args[:message_id])endendspec/tasks/retry_spec.rb:require'rails_helper'require'rake'describe'retrynamespaceraketask'dodescribe're

hadoop - MapReduce 不适合哪些任务？

有关hadoop - MapReduce 不适合哪些任务？的更多相关文章

随机推荐