map_region

hadoop - hadoop如何分配jobs到map和reduce

谁能解释一下hadoop如何决定将作业传递给map和reduce。Hadoop作业被传递到map和reduce，但我无法弄清楚它是如何完成的。提前致谢。最佳答案请参阅Hadoop权威指南第6章“MapReduce作业运行剖析”主题。快乐学习关于hadoop-hadoop如何分配jobs到map和reduce，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/30678872/

hadoop - 如何使用spark for map-reduce flow来选择文件夹下所有csv文件的N列，前M行？

具体来说，假设我们有一个包含10k制表符分隔的csv文件的文件夹，这些文件具有以下属性格式(每个csv文件大约10GB):idnameaddresscity...1Mattadd1LA...2Willadd2LA...3Lucyadd3SF......而且我们有一个基于上面“name”的查找表namegenderMattMLucyF...现在我们有兴趣将每个csv文件的前100,000行输出为以下格式:idnamegender1MattM...我们可以使用pyspark来有效地处理这个问题吗？如何并行处理这些10k的csv文件？最佳答案

map-reduce hadoop section code pre mapreduce apache-spark spark-streaming pyspark

java - Hadoop map reduce 从 csv 格式的 csv 文件中提取特定列

我是hadoop的新手，正在从事一个大数据项目，我必须清理和过滤给定的csv文件。就像如果给定的csv文件有200列，那么我只需要选择20个特定的列(所谓的数据过滤)作为进一步操作的输出。同样作为数据清理的一部分，我必须检查日期列的日期格式是否正确，并将所有格式更改为单一格式，如DD-MM-YYYY。到目前为止，我可以读取给定的文件，但是您能否建议如何选择特定的列以及如何检查日期格式？最佳答案您也可以使用ApachePig来过滤和验证日期格式。请按照以下步骤操作:将文件复制到HDFS使用加载命令和pigStorage()加载文件

csv Hadoop section 给定 pig-java-udf-validate-date-format java file-io mapreduce bigdata

Hadoop Map Reduce 程序进行服务调用

我想为File的每一行调用服务。我们的源文件大于50GB。迭代超过50GB的Row可能需要更多时间。是否需要编写任何内置功能或任何MapReduce程序来为每一行调用服务。由于MapReduce提供了一点并行化。是否有任何自定义工具已经构建了此需求最佳答案 map-reduce的基本要求是任务应该并行运行而不会对单个结果产生任何影响。如果您的服务调用独立于其他内容，则可以使用mapreduce。我认为只有map就足够了，负责读取每一行并进行服务调用。但是，您也需要考虑map的另一面。您将如何处理服务调用以及最终的map。那部分决定

Hadoop Reduce section map hadoop2

java - Map-Reduce 程序 : Mapper not behaving as expected

friend，我是Map-Reduce的新手，正在尝试一个只执行Mapper的例子；但输出很奇怪，出乎意料。如果我在这里遗漏了什么，请帮助我查找:代码部分:进口:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hadoop.mapred

Map-Reduce behaving strong apache import java hadoop mapreduce

hadoop - MapReduce中，为什么map函数在查找单词出现时输出1？

假设我想知道每个单词在某些文本中出现的次数。我的理解是，文本被分成多个部分，每个部分都传递给map。map然后会获取每个部分的单词出现次数，并将结果传递给reduce，如下所示:foreachwordwindocument:occurrences[w]+=1returnoccurrences然而，根据MapReducepaper和wikipedia,map只会为每个单词发出1，如下所示:foreachwordwindocument:emit(w,1)这与将文本部分直接传递给reduce基本上不是一回事吗，因为它无论如何都必须遍历每个单词？此外，只是为了确定。如果我想使用MapReduc

现时单词 code pre hadoop mapreduce large-data

hadoop - Map Reduce在eclipse中执行

谁能告诉我如何在Eclipse的参数选项卡中设置HDFS文件路径。这样下面的代码就不会给出超出索引的异常。FileInputFormat.addInputPath(job,newPath(otherArgs[0]));FileOutputFormat.setOutputPath(job,newPath(otherArgs[1])); 最佳答案您需要使用运行配置。右键单击该程序，转到运行配置，使用java应用程序。选择正确的项目和带有main函数的正确程序后，您需要转到VMArguments并传递参数。

eclipse hadoop section 中设 stackoverflow mapreduce

eclipse - 在 eclipse 中安装 MAP-REDUCE 插件时出错

当我尝试在eclipseINDIGO中安装MAP-REDUCE插件时，出现以下错误截图:我已经安装了hadoop1.2.1。最佳答案您尝试使用的插件是使用Java8编译的，但您正在使用早期版本的Java运行Eclipse。您必须使用Java8运行Eclipse才能使用此插件。关于eclipse-在eclipse中安装MAP-REDUCE插件时出错，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/

时出中安 section eclipse hadoop plugins

hadoop - 如何避免 Hadoop 中的 Map/Reduce 任务失败

我有一个迭代次数太多的循环和一个在Reducer函数中计算量很大的函数。while(context.getCounter(SOLUTION_FLAG.SOLUTION_FOUND).getValue()MAX_ITR是迭代次数-用户输入问题是当我在Hadoop集群上运行它时出现超时错误并且Reducer任务被终止17/05/0621:09:43INFOmapreduce.Job:TaskId:attempt_1494129392154_0001_r_000000_0,Status:FAILEDAttemptID:attempt_1494129392154_0001_r_000000_0

hadoop section code stackoverflow mapreduce

java - Map Reduce - 在 Reducer 中使用局部变量

我已经实现了一个简单的Mapreduce应用程序来检测最长的单词。作业执行成功。但是现在我想知道在reducer中使用局部变量来保持Max长度是否正确？由于分布式环境中可能有多个reducer，并且它们不共享该变量的值。这是一个正确的假设吗？在分布式环境中，当有独立的reducer时，输出会受到怎样的影响？我正在使用自定义比较器，因此单词首先按长度排序，而不是按值排序。每个MR阶段的输出如下所示:MapperOutput:ByeByeBye9HelloHelloHe22215HelloHelloHe22215HelloHelloHe33315HelloHelloHe33315Hello

Reducer Reduce HelloHelloHe section java hadoop mapreduce hdfs

206 207 208209210 211 212