草庐IT

elastic-mapreduce-cli

全部标签

hadoop - 如何在配置单元中将 mapreduce 任务的数量设置为 1

我尝试在hive中跟随-sethive.exec.reducers.max=1;setmapred.reduce.tasks=1;fromflat_jsoninsertoverwritetableaggr_pgm_measurePARTITION(dt='${START_TIME}')reducelog_time,req_id,ac_id,client_key,rulename,categoryname,bsid,visitorid,visitorgroupid,visitortargetid,targetpopulationid,windowsessionid,eventseq,ev

hadoop - 访问 MapReduce 配置/统计信息以进行日志记录和分析

我们正在努力从mapreduce作业中收集统计数据。我们将对某些事情使用计数器,但我想知道是否有某种方法可以访问WebUI上的统计信息,例如插入的行、读/写的字节数等,以便我们可以将它们推送到数据库中供以后检查。WebUI如何收集所有这些数据,我们能否以一种不涉及解析下载的html报告View的方式使用这些收集的数据?比如作业输出的文件? 最佳答案 这是tutorial用于访问工作计数器。这是获取给定jobid的计数器的代码。JobIdjobId=newJobId("12345",0);Clustercluster=newClust

hadoop - 排队和Mapreduce

我看到大数据队列作业对实时工作具有高性能,因为它们产生的数据很容易被消费。Map/Reduce作业(hadoop)的高性能有一个不同的原因:它们是离线的并且允许大规模并行数据连接和聚合。但是,我想知道-是否有任何用于大数据摄取的系统能够结合实时数据馈送实现map/reduce样式的并行性?具体来说,这意味着(在hadoop中)允许读取、写入和聚合尚未完成的“部分”输出文件。 最佳答案 查看HStreaming哪个用户MR范式。我没用过,不知道优缺点。Commoncodebaseandtoolingforreal-timeandbat

hadoop - Amazon Elastic Map Reduce 是否在每个实例中运行一个或多个映射器进程?

我的问题是:我应该自己关心映射器中的多重处理(从标准输入读取任务,然后将它们分配给工作进程,在主进程中组合结果并输出到标准输出)还是Hadoop会自动处理它?我在HadoopStreaming文档和AmazonElasticMapReduce常见问题解答中都没有找到答案。 最佳答案 Hadoop有一个“槽”的概念。Slot是mapper进程运行的地方。您配置每个tasktracker节点的槽数。它是映射进程的理论最大值,它将在每个节点上并行运行。如果没有足够的输入数据的单独poprtions(称为FileSplits),它可能会更少

hadoop - MapReduce 要求所有映射器在合并阶段之前完成

我最近不得不运行一项作业,要求所有映射器在将结果传递到组合阶段之前完成(由于处理文件的结构方式)。通过配置以下内容,reducer可以使用此功能-//force100%ofthemapperstoconcludebeforereducersstartjob.set("mapred.reduce.slowstart.completed.maps","1.0");我找不到合并阶段的任何类似配置。最终,我将我的工作分成了2个部分,组合阶段充当了reducer,而我的原始reduce传递给了作业#2(mapper2只是传递了数据而没有修改它)。我想知道-有没有一种方法我错过了在合并之前配置10

hadoop - Mapreduce - 无法获得正确的 key

您好,我正在编写mapreduce代码来查找最高温度。问题是我获得了最高温度但没有相应的key。publicstaticclassTemperatureReducerextendsReducer{Textyear=newText();intmaxTemperature=Integer.MIN_VALUE;publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{for(IntWritablevalTemp:values){maxTemperature=Mat

hadoop - mapreduce 程序输出重复?

我的输出中有很多重复的值,所以我实现了一个reduce函数,如下所示,但是这个reduce仍然作为一个恒等函数工作,也就是说,即使我有或没有reduce,输出也没有区别。我的reduce函数有什么问题?publicclasssearch{publicstaticStringstr="And";publicstaticclassMapextendsMapReduceBaseimplementsMapper{Stringmname="";publicvoidconfigure(JobConfjob){mname=job.get(str);job.set(mname,str);}privat

mongodb - Hadoop 中的增量 MapReduce(使用 mongodb-hadoop 适配器)

我想在Hadoop中进行mapreduce工作,在MongoDB中获取并保存结果,感谢mongo-hadoop连接器。有没有一种方法可以像在MongoDB中那样在hadoop中执行增量mapreduce?Ifdocumentsexistsforagivenkeyintheresultsetandintheoldcollection,thenareduceoperation(usingthespecifiedreducefunction)willbeperformedonthetwovaluesandtheresultwillbewrittentotheoutputcollection.

hadoop - 在使用 MapReduce 执行字数统计时,是否可以在 map 函数中将数据拆分为字词?

我找到了大量的文档和示例,但我认为如果拆分是在map()函数中完成的,这将无法利用分布式系统的强大功能。我的分析是否正确? 最佳答案 输入文件被分割并分布在整个服务器集上,允许并行映射执行。您还希望利用映射输出的分区来实现将每个单词的计数收集到一个服务器(分区)上所需的排序。通过这种方式,实际的单词计数也可以并行进行。 关于hadoop-在使用MapReduce执行字数统计时,是否可以在map函数中将数据拆分为字词?,我们在StackOverflow上找到一个类似的问题:

hadoop - 如何与 amazon elastic mapreduce 共享 jar 库?

为了加快jar到s3的上传速度,我想将我所有常用的jar复制到普通hadoop中的“$HADOOP_HOME/lib”之类的地方。我是否可以创建预安装这些库的自定义EMRhadoop实例。或者有更简单的方法? 最佳答案 您可以将此作为引导操作来执行。这就像放置一个脚本来复制到S3一样简单,然后如果您从命令行启动EMR,请添加如下参数:--bootstrap-action's3://my-bucket/boostrap.sh'或者,如果您通过网络界面执行此操作,只需在相应字段中输入位置即可。