草庐IT

mapreduce-name

全部标签

Hadoop MapReduce 获取每个单词的百分比

我正在使用HadoopMapreduce来获取单词和单词计数信息。除了每个单词的计数,我还需要找到每个单词在文档中显示的百分比。输出是这样的。如果文档只包含三个词“hello”、“world”和“kitty”。结果应该是这样的。字数百分比你好400.4世界500.5小猫100.1我可以设置一个TOTAL_KEY来统计所有的单词,问题是每个单词统计返回时,结果会同时返回。将每个单词输出到hdfs时,无法计算当时的百分比。 最佳答案 您可以在Mapper中设置一个计数器。在您从映射器发出单词时增加一个全局计数器以计算单词总数。在你的re

python - Hadoop MapReduce 如何将字符串参数传递给 Mapper

我一直在像这样在SSH上使用HadoopMapReduce命令:hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.1.jar-file/nfs_home/appers/user1/mapper.py-file/nfs_home/appers/user1/reducer.py-mapper'/usr/lib/python_2.7.3/bin/pythonmapper.py'-reducer'/usr/lib/python_2.7.3/bin/pythonr

java - Mapreduce java 程序搜索 QuadTree 索引并运行 GeometryEngine.contains 以使用 wkt 文件确认多边形中的点

这篇文章是针对我之前的问题建议的mapreduce实现:“Howtooptimizescanof1hugefile/tableinHivetoconfirm/checkiflatlongpointiscontainedinawktgeometryshape”我不太会写map-reduce的java程序,主要使用Hive或者Pig或者spark在Hadoop生态系统中开发。给出手头任务的背景:我试图将每个纬度/经度ping关联到相应的ZIP邮政编码。我有一个包含所有zip信息的WKT多边形形状文件(500MB)。我已经将它加载到Hive中,并且可以使用ST_Contains(polygo

scala - Mapreduce 使用 Scala 错误 : java. lang.ClassNotFoundException : scala. Predef$

我尝试通过scala实现一个简单的mapreduce作业。但是,当我使用命令运行包时,hadoopjarhadoop.jarmapreduce.MaxTemperaturehdfs://sandbox/user/ajay/inputhdfs://sandbox/user/ajay/output我得到错误,16/09/0616:06:12INFOmapreduce.Job:TaskId:attempt_1473177830264_0002_m_000001_2,Status:FAILEDError:java.lang.ClassNotFoundException:scala.Predef

hadoop - 如何将 Hadoop MapReduce 作业的输出作为值/键而不是键/值返回?

例如,典型的WordCountmapreduce可能会返回如下输出:hello3world4again1我想对输出进行稍微不同的格式化,以便它显示为:3hello4world1again我读过很多想要按值排序的帖子,答案建议在第一个输出上进行第二个mapreduce作业。但是,我不需要按值排序,并且多个键可能具有相同的值——我不希望将它们混为一谈。有没有一种简单的方法可以简单地切换键/值的打印顺序?看起来应该很简单。 最佳答案 按难易程度顺序考虑的两个选项是:在Reduce中切换Key/Value修改reduce的输出以切换键和值。

hadoop - MapReduce 作业无法与启用 Kerberos 的 CDH 集群上的 Hbase 对话

我正在编写一个MapReduce应用程序来访问启用了Kerberos的CDH集群上的Hbase数据。我的CDH版本是5.9.0,运行在3个节点上,Kerberos版本是1.10.1。现在,我面临一个问题,希望有人能提供帮助。我的代码:conf.set("hadoop.security.authentication","Kerberos");UserGroupInformation.setConfiguration(conf);UserGroupInformation.loginUserFromKeytab("jj@example.com","jj.keytab");HTabletabl

hadoop - 为什么 mapreduce 作业指向本地主机 :8080?

我正在处理MapReduce作业并使用ToolRunner的运行方法执行它。这是我的代码:publicclassMaxTemperatureextendsConfiguredimplementsTool{publicstaticvoidmain(String[]args)throwsException{System.setProperty("hadoop.home.dir","/");intexitCode=ToolRunner.run(newMaxTemperature(),args);System.exit(exitCode);}@Overridepublicintrun(Stri

scala - HDFS : java. io.FileNotFoundException : File does not exist: name. _COPYING

我正在使用Scala处理SparkStreaming。我需要使用此行从HDFS目录动态读取.csv文件:vallines=ssc.textFileStream("/user/root/")我使用以下命令行将文件放入HDFS:hdfsdfs-put./head40k.csv它适用于相对较小的文件。当我尝试使用更大的一个时,出现此错误:org.apache.hadoop.ipc.RemoteException(java.io.FileNotFoundException):Filedoesnotexist:/user/root/head800k.csv._COPYING我能理解为什么,但我不

java - 调用 MapReduce 两次

我在这里学习字数统计教程:https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Example:_WordCount_v1.0我可以得出一个词以这种格式出现的频率:wordfrequency112233415261但是,现在我需要像这样对频率进行分组:frequencycount132231基本上,对于每个频率,找出它出现的频率。我将如何修改代码以显示此内容?我觉得我必须修改IntSumReducer但我从未真正使

hadoop - Hadoop MapReduce 何时运行组合器的权威来源

已经有很多这样的问题,答案相互矛盾。我还在文献和博客中发现了相互矛盾的说法。在Hadoop权威指南一书中,它说Hadoopdoesnotprovideaguaranteeofhowmanytimesitwillcall[thecombiner]foraparticularmapoutputrecord,ifatall.Inotherwords,callingthecombinerfunctionzero,oneormanytimesshouldproducethesameoutputfromthereducer此处类似问题的答案Onwhatbasismapreduceframework