草庐IT

Mapreduce

全部标签

hadoop - 为什么不能从 YARN 请求超过 32 个内核来运行作业?

设置:没有。节点数:3没有。内核数:每台机器32个内核RAM:每台机器410GBSpark版本:1.2.0Hadoop版本:2.4.0(Hortonworks)目标:我想运行超过32个执行器核心的Spark作业。问题:当我为Spark作业请求超过32个执行器内核时,出现以下错误:Uncaughtexception:Invalidresourcerequest,requestedvirtualcoresmaxconfigured,requestedVirtualCores=150,maxVirtualCores=32atorg.apache.hadoop.yarn.server.reso

hadoop - JA017 : Could not lookup launched hadoop Job ID

在Hue中的OozieEditor中提交mapreduce作业时如何解决这个问题?:JA017:无法查找与操作[0000009-150711083342968-oozie-root-W@mapreduce-f660]关联的hadoop作业ID[job_local152843681_0009]。此操作失败!更新:Herearelogfile:2015-07-1504:54:40,304INFOActionStartXCommand:520-SERVER[myserver]USER[root]GROUP[-]TOKEN[]APP[My_Workflow]JOB[0000010-150711

hadoop - Spark - 寻找重叠值或寻找共同 friend 的变体

我有一个问题想用Spark解决。我是Spark的新手,所以我不确定设计它的最佳方式是什么。输入:group1=user1,user2group2=user1,user2,user3group3=user2,user4group4=user1,user4group5=user3,user5group6=user3,user4,user5group7=user2,user4group8=user1,user5group9=user2,user4,user5group10=user4,user5我想找到每对用户之间的相互组数。所以对于上面的输入,我期望的输出是:输出:1stuser||2nd

hadoop - 使用 java 在 Apache Spark 中进行多行输入

我已经查看了此站点上已经提出的其他类似问题,但没有得到满意的答案。我是Apachespark和hadoop的新手。我的问题是我有一个输入文件(35GB),其中包含对在线购物网站商品的多行评论。文件中给出的信息如下所示:productId:C58500585Fproduct:NunToyproduct/price:5.99userId:A3NM6WTIAEprofileName:Heatherhelpfulness:0/1score:2.0time:1624609summary:notverymuchfuntext:Boughtitforarelative.Wasnotimpressiv

java - 原始比较器与 WritableComparable

compare()和compareTo()如果我们谈论排序键,它们是同义的但我只想知道在高度配置机器的时代是否需要考虑关于何时使用compare()以及何时使用compareTo()?如果需要考虑compare(byteb1[],ints1,intl1,byteb2[],ints2,intl2)比compareTo(objectkey1,Objectkey2)然后请建议我们真正需要决定使用哪一个的字段或用例或问题类型?谢谢你!! 最佳答案 RawComparator的使用:如果您仍然想优化MapReduceJob所花费的时间,那么您

java - Hadoop 中 Mapper.Context 的 API 文档在哪里?

我很高兴能加快Hadoop的速度,其中包括检查thttps://hadoop.apache.org/docs/current/api/类Mapper的文档广泛引用了类Mapper.Context(org.apache.hadoop.mapreduce.Mapper.Context)。但是,除了旧版本的API之外,我看不到该Mapper.Context类/接口(interface)/无论它是什么的API文档。在当前的API中,我可以在哪里找到特别针对Mapper.Context的文档?我看到它在不同的地方使用(context.write方法,最常见),但我找不到这些方法的当前文档,尽管我

java - Jobtracker API 错误 - 调用 localhost/127.0.0.1 :50030 failed on local exception: java. io.EOFException

我正在尝试使用Java连接我的jobtracker。下面显示的是我正在尝试执行的程序publicstaticvoidmain(Stringargs[])throwsIOException{Configurationconf=newConfiguration();conf.addResource(newPath("/home/user/hadoop-1.0.3/conf/core-site.xml"));conf.addResource(newPath("/home/user/hadoop-1.0.3/conf/hdfs-site.xml"));conf.addResource(newP

hadoop - 在 Apache pig 工作中获取今天的日期

我想在我的一项假定每天运行的Pig作业的输出文件路径中使用今天的日期,有没有办法做到这一点。就像是/user/x/$todaysDate 最佳答案 通过bash执行此操作:echo'/user/x/'`date+%Y-%m-%d`给出:/user/x/2012-10-14因此,您可以将脚本执行为:$pig-paramoutpath='/user/x/'`date+%Y-%m-%d`myscript.pig然后,在您的STORE命令中,使用$outpath:STOREabcINTO'$outpath';

hadoop - 记录阅读器和记录边界

假设我有一个输入文件,并且在HDFS中为该文件创建了三个block。假设我有三个数据节点,每个数据节点存储一个block。如果我有3个输入拆分,则3个映射器将并行运行以处理各自数据节点的本地数据。每个映射器使用输入格式和记录阅读器根据键值对获取输入。此场景使用TextInputFormat,其中记录是来自文件的完整文本行。这里的问题是如果在第一个block的末尾有记录中断会发生什么。1)Hadoop在这个场景下如何读取完整的记录?2)数据节点1是否联系数据节点2获取完整记录?3)如果数据节点2开始处理数据并识别出第一行的不完整记录会怎样? 最佳答案

hadoop - 在哪里可以找到有关 Mapreduce 中文件系统计数器的信息

在运行mapreduce作业时,我得到如下输出:11/09/1521:35:16INFOmapreduce.Job:Counters:24FileSystemCountersFILE:Numberofbytesread=255967FILE:Numberofbyteswritten=397273FILE:Numberofreadoperations=0FILE:Numberoflargereadoperations=0FILE:Numberofwriteoperations=0Map-ReduceFrameworkMapinputrecords=5Mapoutputrecords=5M