MPI_Reduce

java - Hadoop map reduce 从 csv 格式的 csv 文件中提取特定列

我是hadoop的新手，正在从事一个大数据项目，我必须清理和过滤给定的csv文件。就像如果给定的csv文件有200列，那么我只需要选择20个特定的列(所谓的数据过滤)作为进一步操作的输出。同样作为数据清理的一部分，我必须检查日期列的日期格式是否正确，并将所有格式更改为单一格式，如DD-MM-YYYY。到目前为止，我可以读取给定的文件，但是您能否建议如何选择特定的列以及如何检查日期格式？最佳答案您也可以使用ApachePig来过滤和验证日期格式。请按照以下步骤操作:将文件复制到HDFS使用加载命令和pigStorage()加载文件

csv Hadoop section 给定 pig-java-udf-validate-date-format java file-io mapreduce bigdata

Hadoop Map Reduce 程序进行服务调用

我想为File的每一行调用服务。我们的源文件大于50GB。迭代超过50GB的Row可能需要更多时间。是否需要编写任何内置功能或任何MapReduce程序来为每一行调用服务。由于MapReduce提供了一点并行化。是否有任何自定义工具已经构建了此需求最佳答案 map-reduce的基本要求是任务应该并行运行而不会对单个结果产生任何影响。如果您的服务调用独立于其他内容，则可以使用mapreduce。我认为只有map就足够了，负责读取每一行并进行服务调用。但是，您也需要考虑map的另一面。您将如何处理服务调用以及最终的map。那部分决定

Hadoop Reduce section map hadoop2

java - Map-Reduce 程序 : Mapper not behaving as expected

friend，我是Map-Reduce的新手，正在尝试一个只执行Mapper的例子；但输出很奇怪，出乎意料。如果我在这里遗漏了什么，请帮助我查找:代码部分:进口:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hadoop.mapred

Map-Reduce behaving strong apache import java hadoop mapreduce

hadoop - Map Reduce在eclipse中执行

谁能告诉我如何在Eclipse的参数选项卡中设置HDFS文件路径。这样下面的代码就不会给出超出索引的异常。FileInputFormat.addInputPath(job,newPath(otherArgs[0]));FileOutputFormat.setOutputPath(job,newPath(otherArgs[1])); 最佳答案您需要使用运行配置。右键单击该程序，转到运行配置，使用java应用程序。选择正确的项目和带有main函数的正确程序后，您需要转到VMArguments并传递参数。

eclipse hadoop section 中设 stackoverflow mapreduce

eclipse - 在 eclipse 中安装 MAP-REDUCE 插件时出错

当我尝试在eclipseINDIGO中安装MAP-REDUCE插件时，出现以下错误截图:我已经安装了hadoop1.2.1。最佳答案您尝试使用的插件是使用Java8编译的，但您正在使用早期版本的Java运行Eclipse。您必须使用Java8运行Eclipse才能使用此插件。关于eclipse-在eclipse中安装MAP-REDUCE插件时出错，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/

时出中安 section eclipse hadoop plugins

hadoop - 如何避免 Hadoop 中的 Map/Reduce 任务失败

我有一个迭代次数太多的循环和一个在Reducer函数中计算量很大的函数。while(context.getCounter(SOLUTION_FLAG.SOLUTION_FOUND).getValue()MAX_ITR是迭代次数-用户输入问题是当我在Hadoop集群上运行它时出现超时错误并且Reducer任务被终止17/05/0621:09:43INFOmapreduce.Job:TaskId:attempt_1494129392154_0001_r_000000_0,Status:FAILEDAttemptID:attempt_1494129392154_0001_r_000000_0

hadoop section code stackoverflow mapreduce

java - Map Reduce - 在 Reducer 中使用局部变量

我已经实现了一个简单的Mapreduce应用程序来检测最长的单词。作业执行成功。但是现在我想知道在reducer中使用局部变量来保持Max长度是否正确？由于分布式环境中可能有多个reducer，并且它们不共享该变量的值。这是一个正确的假设吗？在分布式环境中，当有独立的reducer时，输出会受到怎样的影响？我正在使用自定义比较器，因此单词首先按长度排序，而不是按值排序。每个MR阶段的输出如下所示:MapperOutput:ByeByeBye9HelloHelloHe22215HelloHelloHe22215HelloHelloHe33315HelloHelloHe33315Hello

Reducer Reduce HelloHelloHe section java hadoop mapreduce hdfs

Hadoop 生态系统 : Map Reduce needed for Pig/Hive

互联网上有很多hadoop生态系统图片，所以我很难理解这些工具是如何协同工作的。例如在附图中，为什么pig和hive是基于mapreduce的，而其他工具如spark或storm基于YARN？你能解释一下吗？谢谢!BRhaddopecosystem 最佳答案图片显示了MapReduce之上的Pig和Hive。这是因为MapReduce是Pig和Hive使用的分布式计算引擎。Pig和Hive查询作为MapReduce作业执行。使用Pig和Hive更容易，因为它们提供了更高级别的抽象来使用MapReduce。现在我们来看一下图中YAR

Hadoop Reduce code section MapReduce hive apache-pig

java - 执行Map-Reduce程序时出错

我使用hadoop3.1.0在Ubuntu上运行MapreduceWordCount程序，但它总是得到这个信息。我看到有人问这个类似question之前，但这行不通。我想知道我应该修改哪个文件，或者我错过了什么。我的java程序来自here.master@kevin-VirtualBox:~/MapReduceTutorial$$HADOOP_HOME/bin/hadoopjarProductSalePerCountry.jar/inputMapReduce/mapreduce_output_sales$HADOOP_HOME/bin/hadoopjarProductSalePerCo

时出 Map-Reduce gt lt property java hadoop mapreduce

java - Map Reduce - 如何在单个作业中分组和聚合多个属性

我目前在MapReduce方面遇到了一些困难。我有以下数据集:1,John,Computer2,Anne,Computer3,John,Mobile4,Julia,Mobile5,Jack,Mobile6,Jack,TV7,John,Computer8,Jack,TV9,Jack,TV10,Anne,Mobile11,Anne,Computer12,Julia,Mobile现在我想应用带分组的MapReduce和聚合此数据集，以便输出不仅显示哪个人购买某物的次数，以及该人订购最多的产品是什么。所以输出应该是这样的:John3ComputerAnne3MobileJack4TVJulia

中分何在 Text String InterruptedException java hadoop mapreduce grouping aggregation

10 11 121314 15 16