草庐IT

MapReduce2

全部标签

hadoop - 在 AMI 3.0.1 上运行弹性 mapreduce 流

尝试使用较新的AMI3.0.1运行流媒体作业:我收到如下错误:Error:java.lang.RuntimeException:Errorinconfiguringobject...Causedby:java.io.IOException:Cannotrunprogram"s3://elasticmapreduce/samples/wordcount/wordSplitter.py":error=2,Nosuchfileordirectoryatjava.lang.ProcessBuilder.start(ProcessBuilder.java:1041)atorg.apache.ha

java - 带递归的 MapReduce

考虑以下问题:编辑:如果下面的算法没有多大意义,请忽略。我只是为了它把它放在那里。这个想法是doFunc在某种程度上是递归的。doFunc(A):[a0,a1,a2,...]在这种情况下,r是递归函数doFunc的结果,其中a0,a1,a2,...列表中的someCondition为false,该函数递归以获得某种最优A,其条件为true。现在考虑MapReduce可以单独应用于程序的不同部分-例如将A转换为a0,a1,a2,...然后获取modifiedA然后someFuncI都可以使用MapReduce,递归如何适合此MapReduce实现?考虑到这一点,HadoopStreami

python - 使用 MRJob 更改 Mapreduce 中间输出位置

我正在尝试在我没有管理员权限的集群上使用MRJob运行python脚本,我在下面粘贴了错误。我认为正在发生的事情是该作业正在尝试将中间文件写入默认的/tmp....目录,并且由于这是一个我无权写入的protected目录,该作业收到一个错误并且导出。我想知道如何将此tmp输出目录位置更改为本地文件系统示例中的某个位置:/home/myusername/some_path_in_my_local_filesystem_on_the_cluster,基本上我想知道我必须传递哪些附加参数才能将中间输出位置从/tmp/...更改为我具有写权限的本地某个地方.我将我的脚本调用为:pythonmy

mongodb - 将 mongoDB 的所有集合作为输入传递给 mapreduce hadoop

我需要将MongoDB中数据库的所有集合作为输入传递给HadoopMR作业。有一种方法允许多路输入:MultiCollectionSplitBuildermcsb=newMultiCollectionSplitBuilder();mcsb.add(newMongoURI("mongodb://localhost:27017/mongo_hadoop.yield_historical.in"),(MongoURI)null,//authuritrue,//notimeout(DBObject)null,//fields(DBObject)null,//sort(DBObject)null

java - 找到类 org.apache.hadoop.mapreduce.TaskInputOutputContext,但应为接口(interface)

我正在尝试使用MRUnit1.0.0来测试Hadoopv2Reducer,但在尝试时出现异常:java.lang.IncompatibleClassChangeError:Foundclassorg.apache.hadoop.mapreduce.TaskInputOutputContext,butinterfacewasexpectedatorg.apache.hadoop.mrunit.internal.mapreduce.AbstractMockContextWrapper.createCommon(AbstractMockContextWrapper.java:59)atorg

mongodb - MapReduce MongoDB 用户代理

我在Mongo数据库中有500万个条目,如下所示:{"_id":ObjectId("525facace4b0c1f5e78753ea"),"productId":null,"name":"examplename","time":ISODate("2013-10-17T09:23:56.131Z"),"type":"hover","url":"www.example.com","userAgent":"curl/7.24.0(x86_64-apple-darwin12.0)libcurl/7.24.0openssl/0.9.8rzlib/1.2.5"}我需要向每个条目添加一个名为devi

java - Hadoop 2.2 链 MapReduce 作业 Map -> Reducer -> Map -> Reducer

我有两个MapReduce作业,第一个Reducer的输出是第二个Mapper的输入:Map1->Reduce1->Map2->Reduce2现在Map2从Reduce1输出的文件中读取。所以Map1->Reduce1和Map2->Reduce2是独立的。它有效,但如果R​​educe1的输出直接是Map2的输入,它会更容易,我认为会更优化。有办法吗?在这种情况下,Map2将只是一个身份映射器,所以如果我可以这样做会更好:Map1->Reduce1->Reduce2Reduce1、Map2和Reduce2具有相同的输入和输出类型。谢谢! 最佳答案

java - 多个输入的 Hadoop MapReduce

我想在一个作业中使用多种输入格式。我使用过org.apache.hadoop.mapreduce.lib.input.MultipleInputs但是这个实用程序似乎只设计用于HDFS上存在的输入(有路径)。有没有办法使用来自不同来源的多种输入格式?我的具体需求如下...我希望有一个作业可以从现有的Elasticsearch索引(利用https://github.com/elasticsearch/elasticsearch-hadoop提供的ESInputFormat)与一组包含要索引的信息的序列文件执行缩减侧连接。我想从这些合并到reduce阶段的多个输入中读取并插入到另一个索引(

java - X12 解析使用 hadoop mapreduce

我必须使用hadoopmapreduce代码解析x12文件。有人可以建议我怎么做吗?解析后的输出应该可以被其他一些hadoop工具使用,比如hive谢谢,罗克托 最佳答案 我们需要更多信息,但在较高级别:根据您的语言获取或创建X12解析器。https://code.google.com/p/x12-parser/http://www.smooks.org/mediawiki/index.php?title=Main_Page确定您的mapreduce作业将输出什么:每个X12文档的XML树一堆片段???编写一个获取X12文档的作业(

hadoop - FANMOD - 使用 Hadoop/MapReduce 进行子图搜索

我有这个Fanmod我应该为大数据实现的算法。我想知道用Hadoop/Mapreduce做这件事是否有效。如果没有,那么你能给我一些有效解决这个问题的提示吗? 最佳答案 您可能已经熟悉SAHADSubgraphAnalysisinMassiveNetworksUsingHadoop,其中他们使用Hadoop成功地进行了网络主题分析。说Hadoop不能执行迭代处理不太准确……只是在Hadoop中更难。我建议阅读此链接:IterativeAlgorithmsinHadoop了解更多信息,但简而言之,Hadoop中的迭代处理需要将作业背靠