appengine-mapreduce

scala - 对于在映射器之间共享信息的增强版 MapReduce，什么是好的应用程序？

我正在构建Spark框架(http://www.spark-project.org/)的增强版。Spark是加州大学伯克利分校的一个项目，可以在RAM中快速执行MapReduce。Spark是用Scala构建的。我正在构建的增强功能允许映射器在计算时共享一些数据。这可能很有用，例如，如果每个映射器都在寻找最佳解决方案，并且他们都希望共享当前最佳解决方案(以尽早剔除不良解决方案)。该解决方案在传播时可能会稍微过时，但这仍应加快解决方案的速度。通常，这称为分支定界方法。我们可以共享单调递增的数字，也可以共享数组和字典。我们也在研究机器学习应用，其中映射器描述局部自然梯度信息，然后在所有节点

射器 MapReduce section noreferrer scala hadoop machine-learning computer-vision

java - 在 hadoop 中运行多个 MapReduce 作业

我想运行一系列mapreduce作业，所以最简单的解决方案似乎是jobcontroller。假设我有两份工作，job1和job2。我想在job1之后运行job2。好吧，它遇到了一些问题。经过数小时的调试，我将代码缩小为以下几行:JobConfjobConf1=newJobConf();JobConfjobConf2=newJobConf();System.out.println("***Point1");Jobjob1=newJob(jobConf1);System.out.println("***Point2");Jobjob2=newJob(jobConf2);System.out

中运 MapReduce java hadoop apache

java - Hadoop MapReduce、Java实现问题

目前我正在研究ApacheHadoop(使用MapReduce作业的Java实现)。我查看了一些示例(例如WordCount示例)。我在编写自定义mapreduce应用程序方面取得了成功(我正在使用ClouderaHadoopDemoVM)。我的问题是关于一些实现和运行时问题。作业类原型(prototype)如下:publicclassWordCount{publicstaticclassMapextendsMapReduceBaseimplementsMapper{publicvoidmap(LongWritablekey,Textvalue,OutputCollectorout

MapReduce Hadoop code Reduce java

hadoop - mapred-site.xml 中 mapreduce.framework.name 的经典、本地有什么区别？

官方对该参数的描述如下:TheruntimeframeworkforexecutingMapReducejobs.Canbeoneoflocal,classicoryarn.我知道值“yarn”用于MRv2，它会将mapreduce作业提交给resourcemanager。但是本地和经典之间有什么区别？哪个对应MRv1？非常感谢! 最佳答案你是对的，“yarn”代表MRv2。“经典”用于MRv1，“本地”用于MR作业的本地运行。但是为什么需要MRv1？Yarn现在已经结束测试，它比旧的MRv1框架更稳定，而您的MapReduce作

mapred-site framework section MRv MRv1 hadoop mapreduce hadoop-yarn

java - MapReduce 程序中的洗牌步骤是否与映射并行运行？

我试图理解一个MapReduce程序。这样做时，我注意到在所有映射任务完成后，reduce任务几乎立即开始执行。现在，这是令人惊讶的，因为那里的reduce任务处理按键分组的数据，这意味着在其间完成了洗牌/排序步骤。发生这种情况的唯一方法是改组与映射并行进行。其次，如果洗牌确实与映射并行完成，那么在ApacheSpark中相当于什么？映射和按键分组和/或排序也可以在那里并行发生吗？最佳答案 Hadoop的MapReduce不仅仅是map和reduce阶段，还有其他步骤，例如组合器(map-sidereduce)和合并，如下图所示(

洗牌 MapReduce reduce section java scala hadoop apache-spark

api - 我在哪里可以下载所有必要的类来编写 Hadoop MapReduce 作业？

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗？Updatethequestion所以它是on-topic用于堆栈溢出。关闭9年前。Improvethisquestion我最近开始使用Hadoop，并且一直在学习如何编写MapReduce作业。在整个互联网上，我可以找到编写MapReduce作业的示例和教程，但它们都包含类似于“importorg.apache.hadoop.util.*;”的导入语句。我找不到从哪里下载这些类(class)，在找到它们之前我什至无法开始写作业。我在哪里可以下载必要的插件？我已经尝试了Hadoop下载附带的插件，我还尝试了IBM分

MapReduce 编写 section class stackoverflow api download hadoop

java - 使用 oozie 为 mapreduce 作业写入多个输出流的正确方法是什么？

我正在使用新的HadoopAPI编写一系列map-reduce作业。我打算使用Oozie将所有这些管道连接在一起，但我似乎无法找到一种方法来从工作流中的map-reduce节点执行多个输出流。通常要编写多个输出，我会使用类似于MultipleOutputsjavadoc中给出的代码的代码，但oozie从workflow.xml文件中获取所有配置，因此无法像示例中那样配置命名输出。我遇到了一个thread讨论了Oozie中多个输出的使用，但除了创建Java任务并将其直接添加到Oozie管道之外，没有提出任何解决方案。有没有办法通过workflow.xml中的map-reduce节点来实现

mapreduce oozie property gt lt java hadoop

java - Hadoop Mapreduce 多个输入文件

所以我需要两个文件作为我的mapreduce程序的输入:City.dat和Country.dat在我的主要方法中，我像这样解析命令行参数:PathcityInputPath=newPath(args[0]);PathcountryInputPath=newPath(args[1]);PathoutputPath=newPath(args[2]);MultipleInputs.addInputPath(job,countryInputPath,TextInputFormat.class,JoinCountryMapper.class);MultipleInputs.addInputPat

Mapreduce Hadoop code capital Path java command-line command-line-arguments

hadoop - Hive 和 Hadoop MapReduce 之间的关系？

是否有任何连接到reduce或map任务的Hive内部进程？添加到那个!Hive如何与MapReduce结合使用？工作是如何安排的？查询结果如何返回给hivedriver？最佳答案对于HIVE，没有直接通信Map/Reduce任务的过程。它与Jobtracker(YARN中的ApplicationMaster)进行通信(流程6.3)，仅用于一旦安排好作业处理相关的事情。这张图片将使您清楚地了解，HowHIVEusesMapReduceasexecutionengine?Howisthejobgettingscheduled?Ho

MapReduce hadoop section strong Hive hdfs

streaming - Hadoop 或 Hadoop Streaming for MapReduce on AWS

我即将开始一个将在AWS上运行的mapreduce项目，我面临一个选择，是使用Java还是C++。我知道用Java编写项目会使我可以使用更多功能，但是C++也可以通过HadoopStreaming实现它。请注意，我对这两种语言都没有什么背景。一个类似的项目已经用C++完成，代码可供我使用。所以我的问题是:这个额外功能是通过AWS提供的，还是仅在您对云有更多控制权时才相关？为了做出决定，还有什么我应该牢记的，比如hadoop插件的可用性，可以更好地使用一种语言或另一种语言？提前致谢最佳答案您有几个选项可以在AWS上运行Hadoop

Hadoop streaming section C++amazon-web-services mapreduce

50 51 525354 55 56