草庐IT

Circle-Map

全部标签

hadoop - 运行 Map Reduce 作业显示错误 - Mkdirs 无法创建/var/folders/

当我在Mac终端中运行mapreduce作业时:PawandeepSingh1$hadoopjarMaximumTemperature.jarExceptioninthread"main"java.io.IOException:Mkdirsfailedtocreate/var/folders/v1/lyx_f0rj615cy8s54_bk053h0000gp/T/hadoop-unjar3698429834837790177/META-INF/licenseatorg.apache.hadoop.util.RunJar.ensureDirectory(RunJar.java:128)a

hadoop - Map Reduce 程序中的问题

我正在使用Putty执行一个hadoopMap-Reduce作业来解决简单的字数统计问题。我已经在VM上配置了Hadoop,并且我已经验证了Hadoop的所有组件都在使用jps运行。当我使用命令执行代码时hadoopjar无标题.jar我遇到了错误15/06/2019:36:48WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.15/06/2019:37:09INFOutil.NativeCodeLoader:Loade

perl - 将 Hadoop 流与 perl 结合使用以进行 map reduce

我想将hadoop流功能与perl脚本一起用作映射器和缩减器。我发现了thisexplanation这部分回答了我的问题,但是它不包含reducer为每个键一起处理所有值的功能。例如,mapper可能会提取对,reducer会输出每个产品的类别列表。这当然可以通过将所有reducer数据保存在内存中来实现(就像我之前提到的示例中那样),但在许多情况下这是不可扩展的。有没有办法让perl脚本一次获取每个键的所有值(就像普通的map-reduce作业一样)? 最佳答案 您可以使用cpan库Hadoop::Streamingsubredu

json - 如何使用 hadoop map-reduce 和 es-hadoop 将 json 索引到 elasticsearch?

我在HDFS中存储了大量数据,我们希望将其索引到Elasticsearch中。琐碎的想法是使用Elasticsearch-hadoop库。我遵循了thisvideo中的概念,这是我为这项工作编写的代码。publicclassTestOneFileJobextendsConfiguredimplementsTool{publicstaticclassTokenizerextendsMapReduceBaseimplementsMapper{privatefinalMapWritablemap=newMapWritable();privatefinalTextkey=newText("te

Hadoop 集群。 Map reduce 作业停留在 map 100% 和 reduce 0%

我是Hadoop新手。我尝试根据ApacheHadoopsite上给出的示例创建一个hadoop集群。.但是,当我运行mapreduce示例时,应用程序卡在map100%和reduce0%。请帮忙我已经使用Vagrant和Virtualbox设置了环境。创建了两个实例。我在一个实例中运行名称节点和数据节点,在另一个实例中运行资源管理器和节点管理器。mapred-siet.xml配置mapreduce.framework.nameyarnmapreduce.map.memory.mb1536mapreduce.map.java.opts-Xmx1024Mmapreduce.reduce.

java - 从 java map reduce 代码中跳过 header

我正在尝试获取csv文件的摘要,文件的第一行是标题。有没有一种方法可以使每个列的值及其标题名称作为Java代码中的键值对。例如:输入文件是这样的A,B,C,D1,2,3,45,6,7,8我希望映射器的输出为(A,1),(B,2),(C,3),(D,4),(A,5),....注意:我尝试使用覆盖Mapper类中的运行函数来跳过第一行。但据我所知,每次输入拆分都会调用运行函数,因此不适合我的需要。对此的任何帮助将不胜感激。这是我的映射器的样子:publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,I

java - 强制hadoop将 map task 的数量设置为1

我觉得我的问题让每个人都感到困惑。再说清楚一点。我正在尝试订购我的数据。说我的数据(几条记录)是这样的012341389228797我的block大小是128MB,文件大小是380Mb(3个block)我正在尝试为我的记录提供订单号。1,012342,138923,28797为了给出正确的数字,我需要将数据放入1个map中,否则如果我得到3个maptask,我的编号将不正确。所以如果我这样做,我会得到完整的数据吗?输入到我的映射器类的数据不会发生任何变化,这将是我的原始数据,不是吗?一旦我使用noofmappers设置为1-Dmapreduce.job.maps=1或conf.setI

hadoop - 在哪里调用 Map 方法?

我正在寻找hadoop中map方法的内部工作。在哪里调用map方法?它是调用map方法的运行方法吗? 最佳答案 我引用了Apache文档中的示例代码page进一步回答您的问题。Driver类,其中有用于字数统计示例的main方法,定义如下。publicstaticvoidmain(String[]args)throwsException{Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf,"wordcount");job.setJarByClass(Wor

java - Map Reduce 程序抛出异常 IOException "Type mismatch in key from map"

您好,请在下面找到我的代码,它抛出异常。packageHadoopMapReduce;importjava.io.IOException;importjava.util.Iterator;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.h

hadoop - PIG 脚本 : reducer preempted to make room for pending map attempts

我使用不同的参数运行同一个PIG脚本的多个实例。当集群负载很重时,MapReduce作业日志显示大量reducer被抢占,这需要时间:ReducerpreemptedtomakeroomforpendingmapattemptsContainerkilledbytheApplicationMaster.Containerkilledonrequest.Exitcodeis143Containerexitedwithanon-zeroexitcode143如何避免此类抢占问题以最小化脚本执行时间? 最佳答案 看看this关联。简而言之