MAPREDUCE_草庐IT

java - 在 Reducer 中获取输入文件

我正在尝试编写一个mapreduce作业，我需要在其中迭代值两次。因此，当给出数字csv文件时，我们需要将其应用于每一列。为此，我们需要找到min和max值并将其应用到equation(v1)中。到目前为止我所做的是Inmap()IemitthecolumnidaskeyandeachcolumnasvaluesInReduce()Icalculatedtheminandmaxvaluesofeachcolumn.在那之后我就卡住了。接下来我的目标是应用等式(v=[(v−minA)/(maxA−minA)]*(newmaxA−newminA)+newminA)我的newmaxA和new

java - 使用 MapReduce 拆分字符串并重建它

您好，我是Hadoop和MapReduce编程的新手。我正在处理一堆我们必须了解访问行为的apache日志。我们现在正在查看实际URI和引荐来源网址URI。这些引荐来源网址URI来自一个查询字符串，我试图通过MapReduce的映射器解析该查询字符串，并且由于我没有任何缩减器功能，所以我没有构建真正的缩减器。#ipdatetimemethoduristatuscoderefUriuserAgent79.28.43.25--[25/Jan/2009:13:18:02+0000]"GET/blog/2007/01/internet-explorer-7-in-italiano/HTTP/1

并重 MapReduce 34 section amp java hadoop query-string

java - map 缩小 : Wordcount don't make anything

我想使用MapReduce和hadoopv.1.0.3(我在MacOS上)编写自己的字数统计示例，但我不明白为什么它不起作用分享我的代码:主要内容:packageorg.myorg;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.DoubleWritable;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.MapWritable;importorg.apache.hadoop.io.Text;importorg.apache.hado

Wordcount anything import hadoop apache java mapreduce java-6

java - MapReduce 中的全局变量或属性？

我希望能够在我的MR作业的映射阶段设置某种变量或标志，我可以在作业完成后检查。我认为用一些代码来展示我想要的东西的最好方法是:p.s我正在使用Hadoop2.2.0publicclassMRJob{publicstaticclassMapperTestextendsMapper{publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{//Dosomecomputationtogetnewvalueandkey...//Checkifnewvalueequaltosom

MapReduce java section Configuration code hadoop hadoop2

hadoop - Hadoop 中需要 "runuser hdfs -s/bin/bash/bin/bash"

我是hadoop的新手，正在关注这个link在Fedora20中安装它。这篇文章中有一个命令:runuserhdfs-s/bin/bash/bin/bash-c"hadoopfs-mkdir/user/"在这部分命令中，我们在HDFS中创建一个目录:"hadoopfs-mkdir/user/"但是我无法理解上面命令的这一部分的用途/含义是什么:runuserhdfs-s/bin/bash/bin/bash请告诉我这个命令的确切用途/含义是什么:runuserhdfs-s/bin/bash/bin/bash 最佳答案这有点令人困惑，

bash amp code pre hadoop mapreduce hdfs

hadoop - Hadoop什么时候开始shuffle

我对洗牌何时开始有疑问。假设我有2个映射器和1个缩减器。每个映射器将生成输出map1和map2。这个map1和map2存储在各自datanode的临时磁盘中。现在reducer应该等待map1和map2的输出？换句话说，什么时候开始洗牌？一旦map1完成还是必须等待map2也完成？我正在收听reducer的改组流量，但我找不到任何流量，但控制台输出显示已经完成了70%(大约)的减少。14/12/1817:45:55INFOmapred.JobClient:map97%reduce22%14/12/1817:45:58INFOmapred.JobClient:map98%reduce22

shuffle hadoop map reduce section mapreduce hdfs cloudera-cdh

hadoop - 将 jars 添加到启动 map reduce 作业的代码的类路径中

我正在尝试从实现Tool接口(interface)的应用程序启动mapreduce作业。该应用程序几乎没有做其他事情，例如mapreduce作业的先决条件。此类使用一些第三方库，如何在运行jar时使用以下命令将这些jar添加到类路径:hadoopjar[args]从这里Cloudera'spost我试图将HADOOP_CLASSPATHenvvar设置为第三方jar，但没有成功。上面提到的第三方jar仅由启Action业的类而不是Mapper/Reducer类需要。所以我不需要把它们放在分布式缓存中。当我在$HADOOP_HOME/lib下复制这些我需要的第三方jar时，它可以工作，但

hadoop reduce jar HADOOP_CLASSPATH section mapreduce classpath

hadoop - 为 AvroParquetInputFormat 设置多个 projectionSchemas 的问题

我使用AvroParquetInputFormat。用例需要扫描多个输入目录，每个目录将包含具有一个模式的文件。由于AvroParquetInputFormat类无法处理多个输入模式，我通过静态创建多个虚拟类(如MyAvroParquetInputFormat1、MyAvroParquetInputFormat2等)创建了一个解决方法，其中每个类都继承自AvroParquetInputFormat。对于每个目录，我设置了一个不同的MyAvroParquetInputFormat并且有效(如果有更简洁的方法来实现此目的，请告诉我)。我目前的问题如下:每个文件都有几百列，基于元数据，我为每

AvroParquetInputFormat projectionSchemas section MyAvroParquetInputFormat hadoop mapreduce avro parquet

java - Hadoop Mapreduce 让 addInputPath 使用特定文件名

嘿，这更像是一个java问题，但它与Hadoop相关。我的MapReducejava作业中的代码中有这一行:JobConfconf=newJobConf(WordCount.class);conf.setJobName("WordCount");.......................................FileInputFormat.addInputPath(conf,newPath(args[0]));我如何设置特定的文件名，而不是“给”一个包含许多文件的目录？最佳答案摘自《Hadoop:权威指南》一书:A

addInputPath Mapreduce section FileInputFormat java hadoop

java - 运行 Hadoop : insufficient memory for the Java Runtime Environment to continue

我有一个在3gb内存上运行的32位linux系统。当我尝试运行hadoop示例时，它失败了，说没有足够的内存分配给jre。生成的结果是:hadoopjarmapreduce/hadoop-mapreduce-examples-*.jargrepinputoutput‘dfs[a-z.]+’15/01/1110:17:04INFOclient.RMProxy:ConnectingtoResourceManagerat/127.0.0.1:803215/01/1110:17:05WARNmapreduce.JobSubmitter:Nojobjarfileset.Userclassesma

insufficient Environment mapreduce INFO Configuration java linux hadoop