草庐IT

sum_nums

全部标签

hadoop - Yarn Resource Manager UI 中的 Num Off Switch Containers 是什么意思?

我有一个ETL作业占用大量CPU和内存并运行了很长时间。我在调试时观察到的第一件事如下(来自资源管理器GUI上的作业)NumNodeLocalContainers(满足)=6NumRackLocalContainers(满足)=00NumOffSwitchContainers(满足)=11367我们只有两个架子。我需要帮助回答以下三个问题NumOffSwitchContainer的含义是什么?我如何识别这些“关闭开关”容器以及它们在哪些节点上运行?关闭开关容器是否会导致作业处理时间变慢? 最佳答案 1.NumOffSwitchCon

hadoop - 我不明白 CapacityScheduler 中的 "The sum of capacities for all queues, at each level, must be equal to 100"

在http://hadoop.apache.org/docs/r2.3.0/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html,我看见了yarn.scheduler.capacity..capacity:Queuecapacityinpercentage(%)asafloat(e.g.12.5).Thesumofcapacitiesforallqueues,ateachlevel,mustbeequalto100.Applicationsinthequeuemayconsumemoreresourcesthanthequeue'sca

hadoop - SUM 函数上的 Pig 错误

我有这样的数据-storetrn_datedept_idsale_amt12014-12-141011000765512014-12-141011000765412014-12-141011000754462014-12-1410410008654482014-12-14101100000092014-12-141061000000我想得到sale_amt的总和,为此我正在做首先,我使用以下方式加载数据:table=LOAD'table'USINGorg.apache.hcatalog.pig.HCatLoader();然后将store、tran_date、dept_id上的数据分组g

hadoop - 没有在 pig 中使用 SUM() 获得计算值

我的命令如下:Z=LOAD'/..file_path'USINGPigStorage(',')AS(name:CHARARRAY,gpa:int,salary:int);y=GROUPZBYgpa;R=FOREACHyGENERATESUM(Z.salary);我正在获取的输出DUMPR;作为:{all,()};请指导我。TIA。 最佳答案 您需要使用GROUPALL而不是GROUPBY来获取SUM.Z=LOAD'/..file_path'USINGPigStorage(',')AS(name:CHARARRAY,gpa:int,s

java - Hadoop map reduce over totient sum

我很难使用Hadoopmapreduce来计算两个值之间的总和。例如,我想计算[1,15000]的总和。但据我所知,map-reduce处理具有共同点(标签)的数据。我设法理解了该数据的架构:doctor23doodle34doctor2doodle5那些是在给定文本中找到的单词的出现。使用mapreduce将链接给定单词的值,如下所示:doctor[(232)]doodle[(345)]然后计算这些值的总和。但是关于总和,我们从来没有像上面例子中的绳索那样的共同点。鉴于该数据集:DS1:12345.....15000是否可以使用mapreduce架构计算列表中所有totient的总和

hadoop - 如何在 PigLatin 的 SUM 中计算乘法

我有一只像这样的pig描述:DESCRIBEB;B:{group:chararray,A:{name:chararray,age:int,gpa:float}}我想计算∑B.A.gpa2在pig身上但是如果我写:FOREACHB{out=SUM(A.gpa*A.gpa);}它抛出这样的异常:[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1039:(Name:MultiplyType:nullUid:null)incompatibletypesinMultiplyOperatorlefthandside:bag:tuple(gpa:fl

Hadoop conf确定num map任务

我有一份工作,就像我所有的Hadoop工作一样,从我在Hadoop界面中看到的运行时,它似乎总共有2个maptask。但是,这意味着它加载了太多数据,以至于我收到Java堆空间错误。我已经尝试在我的Hadoop集群中设置许多不同的conf属性来将作业拆分为更多任务,但似乎没有任何效果。我试过设置mapreduce.input.fileinputformat.split.maxsize、mapred.max.split.size、dfs.block.size但似乎没有任何效果。我正在使用0.20.2-cdh3u6,并尝试使用cascading.jdbc运行作业-该作业无法从数据库读取数据

hadoop - pig 脚本 : Find sum of items in a group

这是我要运行的行counts=FOREACHz{sum=SUM(B::counter);GENERATEgroupasA::month,sum;};但是我收到以下错误:Invalidfieldprojection.Projectedfield[B::counter]doesnotexistinschema:group:chararray,y:bag{:tuple(A::id:chararray,A::month:chararray,B::counter:int)}.如何对这样一个包含基于一列分组的元组包的模式进行求和聚合? 最佳答案

hadoop - Pig 脚本中的 SUM 函数

我是一名学生,正在学习如何使用hortonworks沙箱使用Pig脚本。我的问题是我无法正确使用SUM函数。我已经成功地分离了防火墙日志的字段,并且我能够执行多个查询并使用计数函数......但是在一个案例中我真正需要的SUM函数没有运气。我在下面使用的这段代码:A=FOREACHlogs_baseGENERATEdevice_id,src,src_port,dst,dst_port,tran_ip,tran_port,service,duration,sent,rcvd,sent_pkt,rcvd_pkt,SN,user,group1,REGEX_EXTRACT(date,'\\d{

java - 如果 mapred.job.reuse.jvm.num.tasks 设置为 -1,则 hadoop 集群中每个节点启动了多少个 jvm

我最近看到了hadoop的mapred.job.reuse.jvm.num.tasks属性。默认情况下,它设置为+1,这意味着每个map/reduce任务都会启动一个新的JVM。相反,如果它设置为-1,那么一个jvm可以被无限数量的任务使用。在这种情况下,任务依次执行以使用相同的JVM。因此,当该属性设置为+1时,每个节点启动的JVM数量等于任务数量。没有混淆....但是,我的具体问题是,如果我将mapred.job.reuse.jvm.num.tasks设置为-1,每个节点将启动多少个JVM。每个节点只有一个JVM吗?还是别的? 最佳答案