mapreduce_shuffle

java - 如何通过 Hadoop mapreduce 使用集中资源

人们似乎非常热衷于将现有应用程序迁移到Hadoop基础架构，并且在许多公司或组织中似乎有一句口头禅:如果您有大量数据，请使用Hadoop。我想了解现有解决方案对集中式(大)数据的依赖性如何影响Hadoop是否是一个好的解决方案的决策。在许多情况下，典型的“大数据”应用程序想要处理数十亿个事物，例如尽可能高效快速地处理文档、消息、文件。我看到了以map/reduce方式在多个节点之间分配工作的优势。然而，通常情况下，为了能够处理这些东西，处理函数(映射器)必须在某处查找东西。例如，向SQL服务器发送查询、在图形数据库中查找内容、在巨大的键/值存储中查找数据。此外，每个函数可能需要大量内存

mapreduce Hadoop section 中进 java architecture

java - 从远程系统提交 mapreduce 作业时出现异常

我在从远程系统提交mapreduce作业时遇到异常13/10/2818:49:52ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:rootcause:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:file:/F:/Workspaces/Test/Hadoop/test我的hadoop和mapreduce环境是在linux机器上配置的。我从本地WindowsPC提交wordcount作业，如下所示:publicstat

时出 mapreduce conf section 34 java linux hadoop remote-server

hadoop - 在 AMI 3.0.1 上运行弹性 mapreduce 流

尝试使用较新的AMI3.0.1运行流媒体作业:我收到如下错误:Error:java.lang.RuntimeException:Errorinconfiguringobject...Causedby:java.io.IOException:Cannotrunprogram"s3://elasticmapreduce/samples/wordcount/wordSplitter.py":error=2,Nosuchfileordirectoryatjava.lang.ProcessBuilder.start(ProcessBuilder.java:1041)atorg.apache.ha

mapreduce hadoop java section bucket amazon-web-services hadoop-streaming amazon-emr

java - 带递归的 MapReduce

考虑以下问题:编辑:如果下面的算法没有多大意义，请忽略。我只是为了它把它放在那里。这个想法是doFunc在某种程度上是递归的。doFunc(A):[a0,a1,a2,...]在这种情况下，r是递归函数doFunc的结果，其中a0,a1,a2,...列表中的someCondition为false，该函数递归以获得某种最优A，其条件为true。现在考虑MapReduce可以单独应用于程序的不同部分-例如将A转换为a0,a1,a2,...然后获取modifiedA然后someFuncI都可以使用MapReduce，递归如何适合此MapReduce实现？考虑到这一点，HadoopStreami

MapReduce java code section hadoop recursion

python - 使用 MRJob 更改 Mapreduce 中间输出位置

我正在尝试在我没有管理员权限的集群上使用MRJob运行python脚本，我在下面粘贴了错误。我认为正在发生的事情是该作业正在尝试将中间文件写入默认的/tmp....目录，并且由于这是一个我无权写入的protected目录，该作业收到一个错误并且导出。我想知道如何将此tmp输出目录位置更改为本地文件系统示例中的某个位置:/home/myusername/some_path_in_my_local_filesystem_on_the_cluster，基本上我想知道我必须传递哪些附加参数才能将中间输出位置从/tmp/...更改为我具有写权限的本地某个地方.我将我的脚本调用为:pythonmy

Mapreduce python myusername site-packages hadoop hadoop-streaming mrjob

mongodb - 将 mongoDB 的所有集合作为输入传递给 mapreduce hadoop

我需要将MongoDB中数据库的所有集合作为输入传递给HadoopMR作业。有一种方法允许多路输入:MultiCollectionSplitBuildermcsb=newMultiCollectionSplitBuilder();mcsb.add(newMongoURI("mongodb://localhost:27017/mongo_hadoop.yield_historical.in"),(MongoURI)null,//authuritrue,//notimeout(DBObject)null,//fields(DBObject)null,//sort(DBObject)null

mapreduce 传递 DBObject null MongoURI mongodb hadoop mongo-collection

java - 找到类 org.apache.hadoop.mapreduce.TaskInputOutputContext，但应为接口(interface)

我正在尝试使用MRUnit1.0.0来测试Hadoopv2Reducer，但在尝试时出现异常:java.lang.IncompatibleClassChangeError:Foundclassorg.apache.hadoop.mapreduce.TaskInputOutputContext,butinterfacewasexpectedatorg.apache.hadoop.mrunit.internal.mapreduce.AbstractMockContextWrapper.createCommon(AbstractMockContextWrapper.java:59)atorg

TaskInputOutputContext 应为 hadoop gt lt java maven mrunit

mongodb - MapReduce MongoDB 用户代理

我在Mongo数据库中有500万个条目，如下所示:{"_id":ObjectId("525facace4b0c1f5e78753ea"),"productId":null,"name":"examplename","time":ISODate("2013-10-17T09:23:56.131Z"),"type":"hover","url":"www.example.com","userAgent":"curl/7.24.0(x86_64-apple-darwin12.0)libcurl/7.24.0openssl/0.9.8rzlib/1.2.5"}我需要向每个条目添加一个名为devi

MapReduce mongodb code 34 BasicDBObject hadoop mongodb-java

java - Hadoop 2.2 链 MapReduce 作业 Map -> Reducer -> Map -> Reducer

我有两个MapReduce作业，第一个Reducer的输出是第二个Mapper的输入:Map1->Reduce1->Map2->Reduce2现在Map2从Reduce1输出的文件中读取。所以Map1->Reduce1和Map2->Reduce2是独立的。它有效，但如果Reduce1的输出直接是Map2的输入，它会更容易，我认为会更优化。有办法吗？在这种情况下，Map2将只是一个身份映射器，所以如果我可以这样做会更好:Map1->Reduce1->Reduce2Reduce1、Map2和Reduce2具有相同的输入和输出类型。谢谢! 最佳答案

Reducer amp code Reduce section java hadoop mapreduce chaining

java - 多个输入的 Hadoop MapReduce

我想在一个作业中使用多种输入格式。我使用过org.apache.hadoop.mapreduce.lib.input.MultipleInputs但是这个实用程序似乎只设计用于HDFS上存在的输入(有路径)。有没有办法使用来自不同来源的多种输入格式？我的具体需求如下...我希望有一个作业可以从现有的Elasticsearch索引(利用https://github.com/elasticsearch/elasticsearch-hadoop提供的ESInputFormat)与一组包含要索引的信息的序列文件执行缩减侧连接。我想从这些合并到reduce阶段的多个输入中读取并插入到另一个索引(

MapReduce Hadoop section elasticsearch https java

100 101 102103104 105 106