草庐IT

Mapreduce1

全部标签

hadoop - 如何在 MapReduce 中使用 ORCFile 输入/输出格式?

我需要实现一个基于ORCFileI/O格式的自定义I/O格式。我该怎么做?具体来说,我需要一种方法在我的源代码中包含ORCFile库(这是一个自定义的Pig实现)并使用ORCFile输出格式写入数据,然后使用ORCFile输入格式读回数据。 最佳答案 您需要创建InputFormat的子类类(或FileInputFormat,取决于文件的性质)。只需在谷歌上搜索HadoopInputFormat,您就会发现大量关于如何创建您自己的InputFormat类的文章和教程。 关于hadoop-

Hadoop mapreduce 容器以非零退出代码 1 退出

我正在尝试运行一些hadoop程序来提取Ubuntu中一些摘要的关键字。当我使用Hadoop运行程序时,出现以下错误。WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableINFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:8032WARNmapreduce.JobSubmitter:Hadoopcommand-lineoptionparsingnot

java - Scala MapReduce 框架提供类型不匹配

我在Scala中有一个基于多个org.apache.hadoop库的MapReduce框架。它适用于一个简单的字数统计程序。但是,我想将它应用到有用的东西上,但遇到了障碍。我想获取一个csv文件(或任何分隔符)并将第一列中的任何内容作为键传递,然后计算键的发生率。映射器代码如下所示classWordCountMapperextendsMapper[LongWritable,Text,Text,LongWritable]withHImplicits{protectedoverridedefmap(lnNumber:LongWritable,line:Text,context:Mapper

hadoop - 在 mapreduce 模式下运行 pig 脚本的问题

我有一个正在运行的具有6个节点(包括主节点)的hadoop(2.6.0)集群,并且想在mapreduce模式下运行一个pig(0.14.0)脚本。脚本运行没有错误,但不幸的是它似乎只在主节点上运行。在我的研究过程中,我尝试对hadoop配置文件进行一些更改,但没有成功。你能帮我弄清楚如何让pig在整个集群上工作吗?这里有一些信息:每个节点上的配置:一般:/etc/hosts127.0.0.1localhost192.168.101.3master192.168.101.4node1192.168.101.5node2192.168.101.6node3192.168.101.7node

java - 既然可以在map()或reduce()中初始化参数,为什么还需要MapReduce中的setup()方法呢?

我是Hadoop和整个MapReduce范例的新手。我在网上搜索了很多有关覆盖Map类中的setup()方法以访问配置对象的信息。但从我读到的内容来看,似乎每次运行任务时都会调用setup()方法。那么为什么需要一个单独的方法来访问配置对象和初始化参数呢?为什么我们不能直接在map()或reduce()方法中做同样的事情?虽然这两种方法最终都会提供所需的输出,但在选择任何一种方法时是否会考虑性能因素?提前致谢。 最佳答案 回复:“似乎每次运行任务时都会调用setup()方法。”每当任务运行时,对应的Map或Reduce任务都会处理一

hadoop - 如何解决 Oozie 错误 : JA009: Cannot initialize Cluster. 检查 mapreduce.framework.name 的配置

我一直在使用oozie来安排spark作业。尝试使用Oozie中可用的spark操作在2.x集群中部署spark作业。在我的job.properties中,我有以下内容`nameNode=hdfs://hostname:8020jobTracker=hostname:8050master=yarn-clusterqueueName=defaultoozie.use.system.libpath=true`当我提交oozie作业时,我一直收到此错误错误:错误代码[JA009],消息[JA009:无法初始化集群。请检查您的mapreduce.framework.name配置和相应的服务器地

java - hadoop中的mapreduce距离计算

有没有使用hadoopmap/reduce的距离计算实现。我正在尝试计算一组给定点之间的距离。寻找任何资源。编辑这是一个非常智能的解决方案。我已经尝试了一些与第一种算法相似的方法,并且几乎得到了我想要的东西。我目前不关心优化程序,但我的问题是dist(X,Y)函数不起作用。当我得到reducer上的所有点时,我无法遍历Iterator上的所有点并计算距离。stackoverflow.com上有人告诉我hadoop上的迭代器与普通的JAVA迭代器不同,我不确定。但是,如果我能找到一种简单的方法来遍历我的dist()函数上的迭代器,我就可以使用您的第二个算法进行优化。//Thisisyou

python - 迭代 MapReduce

我已经为Hadoop编写了一个简单的k-means集群代码(两个独立的程序-mapper和reducer)。该代码正在我本地盒子上的一个小型二维点数据集上工作。它是用Python编写的,我打算使用StreamingAPI。我想要关于如何最好地在Hadoop上运行这个程序的建议。每次运行mapper和reducer后,都会生成新的中心。这些中心是下一次迭代的输入。据我所知,每个mapreduce迭代都必须是一个单独的mapreduce作业。看起来我必须编写另一个脚本(python/bash)在每个减少阶段后从HDFS中提取新中心,并将其反馈给映射器。还有其他更简单、更简单的方法吗?如果集

graph - Hadoop MapReduce 在图中实现最短路径,而不仅仅是距离

我一直在寻找“最短路径搜索算法的MapReduce实现”。但是,我能找到的所有实例都“计算了从节点x到y的最短距离”,但实际上没有一个实例输出“像x-a-b-c-y这样的实际最短路径”。至于我想要实现的是我有数百个节点的图形,我需要对各个节点之间的最短路径执行频繁的模式分析。这是我正在进行的研究项目。如果有人能指出一些实现(如果存在的话)或给出一些关于如何破解现有SSSP实现以生成路径和距离. 最佳答案 基本上这些实现与某种消息传递一起工作。因此消息在map和reduce阶段之间被发送到HDFS。在reducer中,它们按距离分组和

hadoop - 在 MapReduce 中以最佳方式执行 HBase 查询

问题我们有多个HBase表:A、B、C。假设A是需要处理的记录队列。它可能包含平均2500万条记录。A有用户ID。B有每个用户执行的网站点击。B可能包含数十亿行。C有一些关于用户的次要信息。我们使用MapReduce作业对队列中的记录执行预测分析(成千上万的决策树)。问题的范围不包括实际的分析建模。问题MR作业正在对表B和C执行即席查询。例如,Map任务1执行查询以获得用户1的命中,Map任务2执行查询以获得用户2的命中。如果这些命中最终位于同一区域服务器,它会影响性能(竞争条件等)吗?是否有像ChainMapper(ChainReducer)这样的模式来拆分输入集,以便每个映射器都具