草庐IT

sum_numbers

全部标签

hadoop - 在 Pig 中对多列使用 SUM 时出错

下面是Pig的非结构化输入数据file1.txt---------input|key1|id1|1|1|2|3input|key1|id1|1|0|1input|key1|id1|1|1预期输出是单个记录,其中所有记录的前3列值都相同,我需要总结第4列和第5列。key1|id1|3|2错误如下:data=load'file1.txt'usingPigStorage('|');temp1=foreachdatagenerate$1,$2,sum($3),sum($4);ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1070:Couldnotreso

hadoop - 同时使用 max 和 sum

我有一种情况,我必须求和并最大数量来处理多个每天条目。我在clouderahive中有一个输入表:----------------------------date1|date2|qty----------------------------20180101|20180101|50----------------------------20180101|20180101|15----------------------------20180101|20180102|1----------------------------20180101|20180103|3--------------

hadoop - Spark RDD : Get row number

如何从当前正在处理的RDD中获取行号:valrdd2=rdd1.filter(row=>{//getrownumber}true}) 最佳答案 valrdd2=rdd1.zipWithIndex.filter{case(row,index)=>{//rownumberisindex.(butisnotfixed,unlessRDDissorted)} 关于hadoop-SparkRDD:Getrownumber,我们在StackOverflow上找到一个类似的问题:

hadoop - Pig Latin 像这样获取 SUM() 函数的输出?

我有一些数据,比如(名字,分数)一个10乙25C15一个5一个36乙98C78C78乙12data=LOAD'demo.txt'usingPigStorage(',')as(name:chararray,score:int);groupScore=GROUPdatabyscore;totalscore=FOREACHgroupScoreGeneratedata.name,SUM(data.score);当我使用SUM()函数时,输出结果如下{(A)(A)(A),(51)}{(B)(B)(B),(135)}我想知道是否有任何我可以展示的东西{(A),(51)},这不是在每次出现时都重复“

hadoop - 在 FOREACH 中计算 SUM

假设我有以下内容DATA=foreachINPUT{//..generategroup,count(name)astotal;}我最终会得到一个键按名称分组的关系('mike','someprop',10)('mike','otherprop',3)('doug','xprop',5)...我想得到每个名字的前10名的总和:ALIAS=groupDATAbyname;RESULT=foreachALIAS{SORTED=ORDERDATAbytotaldesc;TOP10=LIMITSORTED10;//doesn'twork!can'thaveGROUPinsideFOREACHAG

hadoop - 避免 "The number of tasks for this job 100325 exceeds the configured limit"错误

我有一个每周在生产集群上运行的Pig脚本。在上次运行中我得到了以下错误org.apache.pig.backend.executionengine.ExecException:ERROR6017:Jobfailed!Error-Jobinitializationfailed:java.io.IOException:Thenumberoftasksforthisjob100325exceedstheconfiguredlimit100000atorg.apache.hadoop.mapred.JobInProgress.initTasks(JobInProgress.java:719)a

Hadoop 基础 :Number of map tasks mappers reduce tasks reducers

映射器和映射任务有什么区别?同样,reducer和reduce任务?此外,在执行mapreduce任务期间如何确定映射器、maptasks、reducer、reducetasks的数量?如果有的话,给出它们之间的相互关系。 最佳答案 简单来说maptask就是Mapper的一个实例。Mapper和reducer是mapreduce作业中的方法。当我们运行mapreduce作业时,生成的map任务数取决于输入中的block数(block数取决于输入拆分)。然而,reduce任务的数量可以在mapreduce驱动程序代码中指定。可以通过

apache-pig - 无法将 org.apache.pig.builtin.SUM 的匹配函数推断为多个或都不适合。请使用显式转换

我想对包含长类型数字的列求和。我尝试了很多可能的方法,但仍然没有解决转换错误。我的pig代码:raw_ds=LOAD'/tmp/bimallik/data/part-r-00098'usingPigStorage(',')AS(d1:chararray,d2:chararray,d3:chararray,d4:chararray,d5:chararray,d6:chararray,d7:chararray,d8:chararray,d9:chararray);parsed_ds=FOREACHraw_dsGENERATEd8asinBytes:long,d9asoutBytes:lon

hadoop - pig : optimal number of maps with a 4 node cluster?

我正在使用只有4个节点的hadoopCloudera系统,但磁盘空间很大(200TB)。在我的pig脚本中,我每月加载几个文件,每个文件的大小约为200Gb。我注意到,如果我在我的pig脚本中加载大约一年的数据,Pig会创建大约15k个mappers,整个过程大约需要3个小时(包括reduce步骤)。相反,如果我加载三年的数据(大约5TB),那么Pig会创建大约30k个mappers,基本上所有节点在处理超过15次后都会变得不健康小时。我是不是遇到了瓶颈?或者我应该使用一些默认选项?我的pig脚本非常基本:我分组,我数数。非常感谢! 最佳答案

hadoop - pig : Count number of keys in a map

我想计算Pigmap中键的数量。我可以编写UDF来执行此操作,但我希望有更简单的方法。data=LOAD'hbase://MARS1'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('A:*','-loadKeytrue-caching=100000')AS(id:bytearray,A_map:map[]);在上面的代码中,我想基本上构建id的直方图以及该键在列族A中有多少项。怀着希望,我尝试了c=FOREACHdataGENERATEid,COUNT(A_map);但不出所料,这没有奏效。或者,也许有人可以建议一个更好的方