草庐IT

MAPREDUCE

全部标签

python - Hadoop MapReduce 如何将字符串参数传递给 Mapper

我一直在像这样在SSH上使用HadoopMapReduce命令:hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.1.jar-file/nfs_home/appers/user1/mapper.py-file/nfs_home/appers/user1/reducer.py-mapper'/usr/lib/python_2.7.3/bin/pythonmapper.py'-reducer'/usr/lib/python_2.7.3/bin/pythonr

java - Mapreduce java 程序搜索 QuadTree 索引并运行 GeometryEngine.contains 以使用 wkt 文件确认多边形中的点

这篇文章是针对我之前的问题建议的mapreduce实现:“Howtooptimizescanof1hugefile/tableinHivetoconfirm/checkiflatlongpointiscontainedinawktgeometryshape”我不太会写map-reduce的java程序,主要使用Hive或者Pig或者spark在Hadoop生态系统中开发。给出手头任务的背景:我试图将每个纬度/经度ping关联到相应的ZIP邮政编码。我有一个包含所有zip信息的WKT多边形形状文件(500MB)。我已经将它加载到Hive中,并且可以使用ST_Contains(polygo

hadoop 停留在 “running job”

我想从doc运行hadoop字数统计程序.但是程序卡在了runningjob16/09/0210:51:13WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable16/09/0210:51:13INFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803216/09/0210:51:13WARNmapreduce.JobResourceUploader:

hadoop - Giraph 作业始终以本地模式运行

我在Hadoop2.6.0上运行Giraph1.1.0。mapredsite.xml看起来像这样mapreduce.framework.nameyarnTheruntimeframeworkforexecutingMapReducejobs.Canbeoneoflocal,classicoryarn.mapreduce.map.memory.mb4096mapreduce.reduce.memory.mb8192mapreduce.map.java.opts-Xmx3072mmapreduce.reduce.java.opts-Xmx6144mmapred.tasktracker.ma

hadoop - hadoop中local和yarn的区别

我一直在尝试按照here中的说明在单个节点上安装Hadoop.有两组指令,一组用于在本地运行MapReduce作业,另一组用于YARN。在本地运行MapReduce作业和在YARN上运行有什么区别? 最佳答案 如果您使用本地,则map和reduce任务在同一个jvm中运行。通常我们要调试代码的时候会用到这种模式。而如果我们使用MRV2中的yarn资源管理器,mappers和reducers将在不同的节点和不同的jvms中运行,并且在同一节点中运行(如果它是伪分布式模式)。 关于hadoo

scala - Mapreduce 使用 Scala 错误 : java. lang.ClassNotFoundException : scala. Predef$

我尝试通过scala实现一个简单的mapreduce作业。但是,当我使用命令运行包时,hadoopjarhadoop.jarmapreduce.MaxTemperaturehdfs://sandbox/user/ajay/inputhdfs://sandbox/user/ajay/output我得到错误,16/09/0616:06:12INFOmapreduce.Job:TaskId:attempt_1473177830264_0002_m_000001_2,Status:FAILEDError:java.lang.ClassNotFoundException:scala.Predef

hadoop - 在hadoop中,我只想在每个节点上执行自己自定义的程序

是的,我想在每个hadoop节点上运行我的自定义程序。我想部署Nomapper和reducer。它就像分布式计算系统,不像mapreduce那样工作(但在内部使用hdfs)。我该怎么办? 最佳答案 MapReduce和Tez作业都使用YARN(YetAnotherResourceNegotiator)在所谓的容器中在集群上分布和执行。您也可以自己使用YARN来运行您自己的作业。请看HadoopArchitectureOverview以获得高级概述。 关于hadoop-在hadoop中,我

hadoop - 如何将 Hadoop MapReduce 作业的输出作为值/键而不是键/值返回?

例如,典型的WordCountmapreduce可能会返回如下输出:hello3world4again1我想对输出进行稍微不同的格式化,以便它显示为:3hello4world1again我读过很多想要按值排序的帖子,答案建议在第一个输出上进行第二个mapreduce作业。但是,我不需要按值排序,并且多个键可能具有相同的值——我不希望将它们混为一谈。有没有一种简单的方法可以简单地切换键/值的打印顺序?看起来应该很简单。 最佳答案 按难易程度顺序考虑的两个选项是:在Reduce中切换Key/Value修改reduce的输出以切换键和值。

hadoop - context.write() 方法中的 NullWritable

我如何才能在我的context.write()方法中只放入值。我不想在我的文本文件中写入key,所以我不想在我的context.write()方法中发出key。这是我的映射器代码:publicclassMyMapperextendsTableMapper{privatefinalIntWritableONE=newIntWritable(1);privateTexttext=newText();publicvoidmap(ImmutableBytesWritablerow,Resultvalue,Contextcontext)throwsIOException,InterruptedE

hadoop - 集群的映射器估计

需要对Hadoop集群中特定作业的映射器估计进行一些说明。根据我的理解,映射器的数量取决于用于处理的输入拆分。但如果我们要对已经驻留在HDFS中的输入数据进行处理,情况就是如此。在这里,我需要澄清有关由SQOOP作业触发的映射器和缩减器。多氟溴联苯..如何根据RAM或输入拆分/block估算专用集群的映射器计数?(一般)如何根据输入大小估算用于将数据从RDBMS检索到HDFS的sqoop作业的映射器计数?(基于Sqoop)什么是核心CPU,它如何影响可以并行运行的映射器的数量?(一般)谢谢。 最佳答案 如何基于RAM或基于输入拆分/