草庐IT

mapreduce_shuffle

全部标签

python - 我的 boto elastic mapreduce jar 作业流参数有什么问题?

我正在使用boto库在Amazon的ElasticMapReduceWeb服务(EMR)中创建工作流。以下代码应创建一个步骤:step2=JarStep(name='Findsimiliaritems',jar='s3n://recommendertest/mahout-core/mahout-core-0.5-SNAPSHOT.jar',main_class='org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob',step_args=['s3n://bucket/output/'+run_id+'/a

python - Amazon Elastic MapReduce - python map 和 reduce 代码的格式或示例

也许它与Hadoop相同,但我找不到编写map的格式或示例,并在map示例旁边减少python代码:http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/但我找不到reduce代码示例,它和Hadoop一样吗?格式是什么,有什么例子吗? 最佳答案 EMR流与一般的Hadoop流没有什么不同。这是一个pythonreducer的例子http://www.michael-noll.com/tutorials/writing-an-had

python - 我们可以在 Hadoop Streaming 中级联多个 MapReduce 作业吗(lang : Python)

我正在使用Python,并且必须使用HadoopStreaming处理以下场景:a)Map1->Reduce1->Map2->Reduce2b)我不想存储中间文件c)我不想安装Cascading、Yelp、Oozie等软件包。我将它们保留为最后的选择。我已经在SO和其他地方进行过相同类型的讨论,但找不到关于Python的答案。能否请您提出建议。 最佳答案 b)Idontwanttostoreintermediatefilesc)IdontwanttoinstallpackageslikeCascading,Yelp,Oozie.有什

python - 文件未在 AWS Elastic Mapreduce 上缓存

我在AWSElasticMapReduce上运行以下MapReduce:./elastic-mapreduce--create--stream--nameCLI_FLOW_LARGE--mappers3://classify.mysite.com/mapper.py--reducers3://classify.mysite.com/reducer.py--inputs3n://classify.mysite.com/s3_list.txt--outputs3://classify.mysite.com/dat_output4/--caches3n://classify.mysite.c

hadoop - 在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个M/R作业,它处理以二进制格式编写的大型时间序列数据文件,看起来像这样(此处换行是为了便于阅读,显然,实际数据是连续的):TIMESTAMP_1---------------------TIMESTAMP_1TIMESTAMP_2**********TIMESTAMP_2TIMESTAMP_3%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%TIMESTAMP_3..etc其中timestamp只是一个8字节结构,可通过前2个字节识别。如上所示,实际数据位于重复值时间戳之间,并包含一个或多个预定义结构。我想编写一个自定义InputFormat,它将向映

hadoop - Pig 到底什么时候使用 Hadoop MapReduce 环境?

我对HadoopMapreduce和Pig环境有疑问。在thisthread中,我发现PigLatin代码被Pig系统解释了。首先,我认为Pig使用map和reduce方法创建.jar文件,然后将此文件“发送”到HadoopMapreduce环境以运行mapreduce作业(这是Pig开发人员future的工作)。那么,PigSystem到底在什么时候使用HadoopMapreduce?它是在解释PigLatin代码的某个地方吗?或者,如果我换句话说问我的问题:作为输入发送到HadoopMapreduce的Pig的输出是什么?非常感谢您的回答。 最佳答案

scala - 学习mapreduce,如何在map reduce数据流中翻译SQL命令。字数统计示例不能满足我的理解。

在网上,我看到了很多关于规范字数统计图减少遍历的示例。我了解k,v的映射器输入=>以减少k,list(v)的输入。mapreduce带来了一些神奇的效果。我不太明白如何将mapreduce应用于更实际的示例。例如:假设我有一个文件,其中包含美国所有员工的薪水以及一些其他详细信息,例如州和城市等......mapreduce如何工作以提供包含以下列汇总的输出报告?州,城市,平均(工资)在SQL中,我可以通过这样的查询得到它:Selectstate,city,avg(salaries)Fromemployee_tblGroupbystate,citymapreduce将如何为我提供上述结果

hadoop - mapreduce 如何共享全局常量变量

我怎样才能允许我的所有映射器访问一个变量,例如TreeMap对象,而不需要每个映射器每次都重新构造TreeMap?对象一旦构造就不会再被修改。 最佳答案 考虑将TreeMap对象的内容放在DistributedCache中.如果是少量数据,您可以将对象内容放在您的配置对象中:conf.set("key","value");然后使用JobConf对象在您的映射器中访问它。 关于hadoop-mapreduce如何共享全局常量变量,我们在StackOverflow上找到一个类似的问题:

serialization - 在 Hadoop MapReduce 中为 Java 类型设置可写包装器类的原因是什么?

在我看来,可以编写一个org.apache.hadoop.io.serializer.Serialization来直接以包装类将类型序列化为相同的格式来序列化java类型。这样Mappers和Reducers就不必处理包装类。 最佳答案 没有什么可以阻止您更改序列化以使用不同的机制,例如javaSerializable接口(interface)或thrift、ProtocolBuffer等。事实上,Hadoop为JavaSerializable提供了一个(实验性的)序列化实现。对象-只需配置序列化工厂即可使用它。默认序列化机制是Wr

hadoop - 有没有办法使用 JDBC 作为 Hadoop 的 MapReduce 的输入资源?

我在PostgreSQL数据库中有数据,我想获取它、处理它并将其保存到HBase数据库中。是否可以在Map操作中以某种方式分发JDBC操作? 最佳答案 是的,你可以通过DBInputFormat来做到这一点:DBInputFormat使用JDBC连接到数据源。因为JDBC被广泛实现,DBInputFormat可以与MySQL、PostgreSQL和其他几个数据库系统一起使用。个别数据库供应商提供JDBC驱动程序以允许第三方应用程序(如Hadoop)连接到他们的数据库。DBInputFormat是一个InputFormat类,它允许您