草庐IT

elastic-mapreduce-cli

全部标签

hadoop - Hadoop 2.2.0 中的 MapReduce 不工作

在伪分布式模式下安装和配置我的Hadoop2.2.0后,一切都在运行,正如您在jps中看到的:$jps2287JobHistoryServer1926ResourceManager2162NodeManager1834DataNode1756NameNode3013Jps然后我用运行了wordcount示例hadoopjar$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jarwordcount/user/hdfs/file/output执行卡住(?)如下:$hadoopjar$HADOOP_HOM

java - 错误 :(63, 40) java : incompatible types: org. apache.hadoop.mapreduce.Job 无法转换为 org.apache.hadoop.mapred.JobConf

我只是在intelljIDE中运行一个简单的hadooop程序。但是当我尝试编译时出现错误$Error:(63,40)java:incompatibletypes:org.apache.hadoop.mapreduce.Jobcannotbeconvertedtoorg.apache.hadoop.mapred.JobConf这是我的这个小程序的代码:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;impor

java - 管道 hadoop mapreduce 作业

我有五个mapreduce,我分别运行它们。我想将它们全部通过管道传输。因此,一项工作的输出转到下一项工作。目前,我编写了shell脚本来执行它们。有没有办法用java写这个?请举例说明。谢谢 最佳答案 您可能会发现JobControl是将这些作业链接在一起的最简单方法。对于更复杂的工作流程,我建议查看Oozie. 关于java-管道hadoopmapreduce作业,我们在StackOverflow上找到一个类似的问题: https://stackoverf

java - 在 hadoop 集群上运行 mapreduce java 程序

我正在学习在hadoop集群上工作。我在hadoop流媒体上工作了一段时间,我在perl/python中编写了map-reduce脚本并运行了这项工作。但是,我没有找到运行javamapreduce作业的任何好的解释。例如:我有以下程序-http://www.infosci.cornell.edu/hadoop/wordcount.html有人能告诉我如何实际编译这个程序并运行这个作业吗? 最佳答案 创建一个目录来保存编译后的类:mkdirWordCount_classes编译你的类:javac-classpath${HADOOP_

hadoop - 使用 MR1 CDH4 运行简单的 MapReduce Streaming 作业失败

我有一个最近从CDH3升级到CDH4的集群。Hive目前运行良好。然而,我似乎无法让它运行简单的MRStreaming作业(版本1)。Yarn已安装但未使用。下面是命令行输入输出$/usr/lib/hadoop/bin/hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.0.jargrep-input/input-output/output/'dfs[a-z.]+'检查日志显示:packageJobJar:[/tmp/hadoop-hdfs/hadoop-

hadoop - 使用 hadoop + mapreduce 在 couchdb 中处理数据

我在CouchDB中有非常大量的数据,但我最近发现couch中的mapreduce函数有多么严重(没有链接)。所以我有了使用Hadoop从CouchDB数据库运行mapreduce查询的想法,并希望将最终结果存储在另一个CouchDB数据库中?这也太疯狂了吧?我知道我可以设置Hbase来执行此操作,但我不想将我的数据从CouchDB迁移到Hbase。我喜欢沙发作为数据存储。 最佳答案 显然CouchDB应该能够将数据流式传输到HadoopviaSqoop,但除了该链接,我没有看到任何其他信息。最坏的情况是,您可以编写自己的输入读取器

hadoop - Hbase MapReduce程序中如何自动生成RowId

我需要将数据集文件加载到hbase表中。我在google上搜索了一些示例,并通过这些示例尝试读取文件并将其加载到Hbase中。但只有第一行正在读取。只有一行数据正在读取,我需要读取所有数据,我不知道我哪里错了我有这种格式的文件yearclassdaysmm1964920.58.819641013.64.219641111.84.71964127.70.1196517.30.8196526.50.11965310.81.41965413.23.51965516.17.01965619.09.21965718.710.71965819.910.91965916.68.2请任何人纠正我,我错

java - Hadoop mapreduce 中的奇怪输出

这是来自输入文件的示例:1,name1,name22,name3,name43,name5,name6这是我的map方法:publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{Stringline=value.toString();StringTokenizertk=newStringTokenizer(line,",");StringkeyValue=tk.nextToken();Strings1Value=tk.nextToken();Stri

hadoop - HBase 与 MapReduce

我在hadoop集群上设置了一个HBase集群,其中所有节点都禁用了IPv6。一切正常;我能够运行Java客户端以使用标准Put、Scan、Get访问HBase,...我写了一个map-reduce程序来访问HBase,但是我得到了以下错误:Exceptioninthread"main"java.lang.NullPointerExceptionatorg.apache.hadoop.net.DNS.reverseDns(DNS.java:72)atorg.apache.hadoop.hbase.mapreduce.TableInputFormatBase.reverseDNS(Tab

hadoop - Hadoop 上的 MRJob 和 mapreduce 任务分区

我正在尝试使用PythonMRJob库执行mapreduce作业,但在将其正确分布到我的Hadoop集群时遇到了一些问题。我相信我只是缺少mapreduce的基本原则。我的集群是一个小型的,一主一从测试集群。基本思想是我只是请求一系列带有参数的网页,对它们进行一些分析并返回网页上的一些属性。我的map函数的输入只是一个带有如下参数的URL列表:http://guelph.backpage.com/automotive/?layout=bla&keyword=towinghttp://guelph.backpage.com/whatever/?p=blahhttp://semanticr