草庐IT

elastic-mapreduce-cli

全部标签

hadoop - MapReduce 作业从不进入运行状态

我有一个正确的小jar文件,因为我在其他计算机上测试过它并且它可以与hadoop一起使用。现在我在我的电脑上安装了hadoop,当我提交作业时它永远不会通过接受状态。在浏览器中,我可以看到作业已被接受,但从未执行过。这是屏幕截图。我看到控制台中有一个警告:WARNmapreduce.JobResourceUploader:Hadoopcommand-lineoptionparsingnotperformed.ImplementtheToolinterfaceandexecuteyourapplicationwithToolRunnertoremedythis.完整的日志是:C:\Use

hadoop - 什么是MapReduce应用大师?

来自Hadoop权威指南ThewholeprocessisillustratedinFigure7-1.Atthehighestlevel,therearefiveindependententities:•Theclient,whichsubmitstheMapReducejob.•TheYARNresourcemanager,whichcoordinatestheallocationofcomputere‐sourcesonthecluster.•TheYARNnodemanagers,whichlaunchandmonitorthecomputecontainersonmachin

hadoop - 我可以将 mapreduce 与一对键和一对值一起使用吗?

我的问题是理论性的,我正在尝试为大数据处理中的mapreduce示例进行设计。我的案例需要一对键映射到一对值。例如,如果我们有以下文本:“工学学士有5年经验”我正在尝试以一种我可以分别为每个词赋值的方式来计算工程和经验这两个词。所以根据上面给出的文本示例,我的键是(Engineering,Experience),我的值是(1,1)。请注意,我的作业中两个键值之间存在关系,因此我希望它们都在一组键值中,以确定是否在一个文本文件中提到了两个键,或者只提到了一个键,或者没有提到。请告诉我上述情况是否可以在大数据的map-reduce中进行.. 最佳答案

java - 如何在 Scala 中忽略 "NullPointerException"并继续完成 MapReduce 任务的下一个工作?

我正在我的UbuntuVM中运行Hadoop-MapReduce作业。在中间阶段,我需要检查Hbase数据库是否存在某个字符串数组,如果没有找到则什么都不做并“继续”到下一个作业,而不抛出“NullPointerException”。下面的Scala代码(版本2.11.7)片段检查Hbase数据库中是否存在先前从MapReduce作业创建的行(即字符串数组)。为此,它首先使用.readColocationStoreRow()根据rowName输入读取hbase中的该行,然后如果存在则将其拆分,然后使用.contains()检查该数组的部分是否(由分隔符#分隔)存在于那里。整个作业迭代运

apache-kafka - 通过 zookeeper CLI 自动删除

我们要永久删除一个主题如下停止代理删除磁盘上的目录rm-rf/*从zookeeper中删除主题:我们可以通过以下命令打印所有主题kafka-topics.sh--zookeeper$Zookeeper_IP:2181--describe并获取zoocli为:bin/zkCli.sh现在我们删除主题rmr/config/topics/rmr/brokers/topics/rmr/admin/delete_topics//brokers/topics/示例rmr/brokers/topics/topic3435rmr/brokers/topics/topic3443rmr/brokers/

hadoop - 亚马逊弹性 MapReduce : the number of launched map task

在MapReduce作业流程步骤的“系统日志”中,我看到以下内容:JobCountersLaunchedreducetasks=4Launchedmaptasks=39启动的maptask数是否包含失败的任务?我使用NLineInputFormat类作为输入格式来管理maptask的数量。但是,对于完全相同的输入,我偶尔会得到略有不同的数字,或者取决于实例的数量(10、15和20)。谁能告诉我为什么我看到启动的任务数量不同? 最佳答案 这很可能是推测性执行的启动。当Hadoop有可用资源时,它可能会选择同时运行同一任务的两次尝试。启

java - 在 MapReduce 中使用 MultipleTextOutputFormat 控制输出文件名

这里是Hadoop(和Java)新手。我在使用MultipleTextOutputFormat控制MapReduce中的输出文件名方面需要一些帮助。目前我正在使用它thisway.它似乎工作正常。然而,我试图改变的是被选中以确定文件名的字段的用法。与其将它们硬编码到field[0]或field[3](如示例中的情况),我想选择这个(在一些动态的时尚)从JobConf为field[jobConf.get("id.offset")]或field[jobConf[get("date.offset")]。这里有谁知道我该怎么做(或达到这种效果的事情,即它本身不必是JobConf)?任何指示/建

hadoop - 为什么Mapreduce中完成的任务数量会减少?

在运行hadoop作业时,我注意到有时已完成的任务数量会减少,而取消的任务数量会增加。这怎么可能?为什么会这样? 最佳答案 我只在我们的集群处于奇怪状态时遇到过这种情况,所以我不确定这是否是同一个问题。基本上,map任务会完成,然后reducers会启动……然后mappers会被重新处理。我认为问题在于映射器输出在该数据节点上徘徊,等待reducer接收它。如果该节点有问题或它死了,JobTracker决定它需要再次重新运行该任务,即使它已经完成。我们的问题是我们的NameNode所在的系统存在一些与Hadoop无关的问题,一旦这些

java - 如何告诉 MapReduce 同时使用多少个映射器?

我正在为MapReduce编写一个索引应用程序。我能够使用NLineInputFormat拆分输入,现在我的应用程序中有几百个映射器。但是,其中只有2/mashine同时处于Activity状态,其余为“待定”。我相信这种行为会显着降低应用程序的速度。如何让hadoop在每台机器上同时运行至少100个?我使用的是旧的hadoopapi语法。到目前为止,这是我尝试过的:conf.setNumMapTasks(1000);conf.setNumTasksToExecutePerJvm(500);这些似乎都没有任何效果。我有什么想法可以让映射器真正并行运行吗? 最

java - hadoop mapreduce 中的重复项

我从hadoop0.20.2开始。我想从这里找到的代码开始解决基本的字数统计问题:http://cxwangyi.blogspot.com/2009/12/wordcount-tutorial-for-hadoop-0201.html这就像它应该的那样工作。但是,当单词在多个文件中分开并且我想计算每个文件的单词数时,我将映射器更改为:StringfileName=((org.apache.hadoop.mapreduce.lib.input.FileSplit)context.getInputSplit()).getPath().getName();word.set(itr.nextT