草庐IT

hadoop - 如何在 PigLatin 的 SUM 中计算乘法

我有一只像这样的pig描述:DESCRIBEB;B:{group:chararray,A:{name:chararray,age:int,gpa:float}}我想计算∑B.A.gpa2在pig身上但是如果我写:FOREACHB{out=SUM(A.gpa*A.gpa);}它抛出这样的异常:[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1039:(Name:MultiplyType:nullUid:null)incompatibletypesinMultiplyOperatorlefthandside:bag:tuple(gpa:fl

java - 在hadoop中计算 'n'最大值

我有一个场景。先前的输出job1在下一个工作中,我需要找到具有最大值的i键。例如i=3,3个具有最大值的键。(i将是自定义参数)如何解决这个问题。我们是否应该在job2映射器中计算max,因为会有唯一键,因为输出来自之前的reducer要么在第二个作业reducer中找到max。但是如何再次找到i键?更新我试过这种方式而不是在reducer中将值作为值发出。我将值作为键发出,这样我就可以按升序获取值。然后我编写了下一个MR作业。其中映射器简单地发出键/值。Reducer找到key的最大值但是当我们尝试获取id时,我再次陷入无法完成的困境,因为id只是唯一的,值不是唯一的。如何解决这个问

hadoop - 在 MapReduce 中计算输入拆分

文件存储在HDFS中,大小为260MB,而HDFS默认block大小为64MB。对该文件执行map-reduce作业后,我发现它创建的输入拆分数仅为4。怎么算的。?其余的4MB在哪里?非常感谢任何输入。 最佳答案 输入拆分并不总是block大小。输入拆分是数据的逻辑表示。您的输入拆分可能是63mb、67mb、65mb、65mb(或者可能是基于逻辑记录大小的其他大小)...请参阅以下链接中的示例...HadoopinputsplitsizevsblocksizeAnotherexample-seesection3.3...

hadoop - 如何在 Hadoop 2 + YARN 中计算并发#mappers 和#reducers?

我搜索了一段时间,发现使用hadoop2+yarn的MapReduce集群每个节点具有以下数量的并发映射和减少:并发映射#=yarn.nodemanager.resource.memory-mb/mapreduce.map.memory.mb并发减少#=yarn.nodemanager.resource.memory-mb/mapreduce.reduce.memory.mb但是,我设置了一个包含10台机器的集群,配置如下:'yarn_site'=>{'yarn.nodemanager.resource.cpu-vcores'=>'32','yarn.nodemanager.resou

hadoop - 我可以使用 Combiner 在 mapreduce 作业中计算平均值吗?

我想实现一个mapreduce作业,该作业读取具有以下架构的Parquet文件:{optionalint96dropoff_datetime;optionalfloatdropoff_latitude;optionalfloatdropoff_longitude;optionalint32dropoff_taxizone_id;optionalfloatehail_fee;optionalfloatextra;optionalfloatfare_amount;optionalfloatimprovement_surcharge;optionalfloatmta_tax;optional

hadoop - 在 Pig 中计算统计模式

如何在不使用UDF的情况下计算ApachePig中数据集的统计模式?A,20A,10A,10B,40B,40B,20B,10data=LOAD'myData.txt'USINGPigStorage(',')ASkey,value;byKey=GROUPdataBYkey;mode=FOREACHbyKeyGENERATEMODE(data.value);--HowtodefineMODE()??DUMPmode;--Correctanswer:(A,10),(B,40) 最佳答案 这是一个版本,每个键只能找到一个结果:data=LO

php - 在 PHP/MySQL 中计算页面浏览量的最佳方法是什么?

最好我的意思是最有效的,现在把它放在我的post.php文件是我唯一能想到的:$query=mysql_query("UPDATEpostsSETviews+1WHEREid='$id'");有没有更好的方法,一种消耗更少服务器资源的方法。我问是因为如果这是一个小应用程序,我对上述内容没有任何问题,但我正在尝试构建一些将被很多人使用的东西,并且我希望尽可能具有查询意识。 最佳答案 如果您对节省资源感兴趣并且仍然使用SQL进行报告,并且精确的#无关紧要,您可以尝试这样的采样(修改采样率以适合您的规模):$sample_rate=100

php - 在 PHP/MySQL 中计算页面浏览量的最佳方法是什么?

最好我的意思是最有效的,现在把它放在我的post.php文件是我唯一能想到的:$query=mysql_query("UPDATEpostsSETviews+1WHEREid='$id'");有没有更好的方法,一种消耗更少服务器资源的方法。我问是因为如果这是一个小应用程序,我对上述内容没有任何问题,但我正在尝试构建一些将被很多人使用的东西,并且我希望尽可能具有查询意识。 最佳答案 如果您对节省资源感兴趣并且仍然使用SQL进行报告,并且精确的#无关紧要,您可以尝试这样的采样(修改采样率以适合您的规模):$sample_rate=100

hadoop - 在 Map/Reduce 中计算排名

我有一个很难用SQL解决的简单问题,我想知道它是否可以在map-reduce系统中完成。我想生成排名。想象一下亚马逊购买数据库(大大简化)ORDERSISBNcopies_purchasedAAAA5AAAA1BBBBB3BBBBB4CCCC3我要制作排名表rankISBNcopies_purchased1BBBB72AAAA63CCCC3计算的copies_purchased的map-reduce是显而易见的;至少对我来说,计算排名没那么重要。(这不是作业问题。我的实际工作需要这个。那个更好吗?)编辑我认为从标题、标签和问题的文本中可以看出这一点,但这不是SQL问题。我想知道如何在m

java - 在 Map Reduce 中计算数据集的线性回归

假设我有如下输入:60,3.161,3.662,3.863,465,4.1预期输出如下:预期输出:y=-8.098+0.19x。我知道如何在java中执行此操作。但不知道这如何与mapreduce模型一起工作。任何人都可以提供有关此问题的想法或示例MapReduce代码吗?我会很感激的。这个简单的数学例子:RegressionFormula:RegressionEquation(y)=a+bxSlope(b)=(NΣXY-(ΣX)(ΣY))/(NΣX2-(ΣX)2)Intercept(a)=(ΣY-b(ΣX))/Nwherexandyarethevariables.b=Theslope