草庐IT

mapreduce_shuffle

全部标签

java - 在 hadoop 集群上运行 mapreduce java 程序

我正在学习在hadoop集群上工作。我在hadoop流媒体上工作了一段时间,我在perl/python中编写了map-reduce脚本并运行了这项工作。但是,我没有找到运行javamapreduce作业的任何好的解释。例如:我有以下程序-http://www.infosci.cornell.edu/hadoop/wordcount.html有人能告诉我如何实际编译这个程序并运行这个作业吗? 最佳答案 创建一个目录来保存编译后的类:mkdirWordCount_classes编译你的类:javac-classpath${HADOOP_

hadoop - 使用 MR1 CDH4 运行简单的 MapReduce Streaming 作业失败

我有一个最近从CDH3升级到CDH4的集群。Hive目前运行良好。然而,我似乎无法让它运行简单的MRStreaming作业(版本1)。Yarn已安装但未使用。下面是命令行输入输出$/usr/lib/hadoop/bin/hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.0.jargrep-input/input-output/output/'dfs[a-z.]+'检查日志显示:packageJobJar:[/tmp/hadoop-hdfs/hadoop-

hadoop - 使用 hadoop + mapreduce 在 couchdb 中处理数据

我在CouchDB中有非常大量的数据,但我最近发现couch中的mapreduce函数有多么严重(没有链接)。所以我有了使用Hadoop从CouchDB数据库运行mapreduce查询的想法,并希望将最终结果存储在另一个CouchDB数据库中?这也太疯狂了吧?我知道我可以设置Hbase来执行此操作,但我不想将我的数据从CouchDB迁移到Hbase。我喜欢沙发作为数据存储。 最佳答案 显然CouchDB应该能够将数据流式传输到HadoopviaSqoop,但除了该链接,我没有看到任何其他信息。最坏的情况是,您可以编写自己的输入读取器

hadoop - Hbase MapReduce程序中如何自动生成RowId

我需要将数据集文件加载到hbase表中。我在google上搜索了一些示例,并通过这些示例尝试读取文件并将其加载到Hbase中。但只有第一行正在读取。只有一行数据正在读取,我需要读取所有数据,我不知道我哪里错了我有这种格式的文件yearclassdaysmm1964920.58.819641013.64.219641111.84.71964127.70.1196517.30.8196526.50.11965310.81.41965413.23.51965516.17.01965619.09.21965718.710.71965819.910.91965916.68.2请任何人纠正我,我错

java - Hadoop mapreduce 中的奇怪输出

这是来自输入文件的示例:1,name1,name22,name3,name43,name5,name6这是我的map方法:publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{Stringline=value.toString();StringTokenizertk=newStringTokenizer(line,",");StringkeyValue=tk.nextToken();Strings1Value=tk.nextToken();Stri

hadoop - HBase 与 MapReduce

我在hadoop集群上设置了一个HBase集群,其中所有节点都禁用了IPv6。一切正常;我能够运行Java客户端以使用标准Put、Scan、Get访问HBase,...我写了一个map-reduce程序来访问HBase,但是我得到了以下错误:Exceptioninthread"main"java.lang.NullPointerExceptionatorg.apache.hadoop.net.DNS.reverseDns(DNS.java:72)atorg.apache.hadoop.hbase.mapreduce.TableInputFormatBase.reverseDNS(Tab

hadoop - Hadoop 上的 MRJob 和 mapreduce 任务分区

我正在尝试使用PythonMRJob库执行mapreduce作业,但在将其正确分布到我的Hadoop集群时遇到了一些问题。我相信我只是缺少mapreduce的基本原则。我的集群是一个小型的,一主一从测试集群。基本思想是我只是请求一系列带有参数的网页,对它们进行一些分析并返回网页上的一些属性。我的map函数的输入只是一个带有如下参数的URL列表:http://guelph.backpage.com/automotive/?layout=bla&keyword=towinghttp://guelph.backpage.com/whatever/?p=blahhttp://semanticr

hadoop - mapreduce 会使用大部分 gzip 文件所在的节点吗?

我有一个HDFS集群,其中包含一些大的gzip文件。我通过将这些gzip文件的所有block写入同一个DataNode,将它们从该数据节点写入HDFS。foriin{1..10};doscpfile$i.gzdatanode1:sshdatanode$ihadoopfs-putfile$i.gz/data/done现在我想对所有这些文件运行mapreduce任务。我希望JobTracker将处理file1的作业放在所有block所在的datanode1上。确实,如果一个数据节点死了,我将失去位置,但它会一直工作到死吗?如果它不能那样工作,我可以编写一个FileInputFormat来实

hadoop - 使用 Hadoop 和 HBase 的增量 MapReduce

我使用CouchDB已经有一段时间了,我正在考虑在HBase/Hadoop中做一个小的学术项目。我阅读了一些关于它们的Material,但找不到一个问题的好答案:在Hadoop/HBase和CouchDB中,都使用MapReduce作为它们的主要查询方法。然而,有一个显着的区别:CouchDB以增量方式执行此操作,使用View,为添加到数据库中的每个新数据建立索引,而Hadoop(从我看到的所有示例来看)通常用于对整个数据集执行完整查询.我缺少的是使用HadoopMapReduce来构建并主要维护索引的能力,例如CouchDB的View。我看到了一些有关如何使用MapReduce创建初

Hadoop Mapreduce tasktrackers 不断忽略 HADOOP_CLASSPATH。 Zookeeper 尝试连接到本地主机而不是集群地址

我有一个包含5个数据节点的Hadoop集群(ClouderaCDH4.2)。我正在尝试运行创建HBaseConfiguration对象的MapReduce作业。tasktracker尝试失败,因为它们试图连接到localhost:2181而不是实际zookeeper安装的地址。我知道这是因为没有为tasktracker提供包含hbase配置的正确类路径。但是,如果我这样运行作业:HADOOP_CLASSPATH=`/usr/bin/hbaseclasspath`hadoopjarmyjar.jar文档表明这应该可以解决问题。hbaseclasspath中的第一个条目是/usr/lib/