均值滤波

hadoop - 使用 Pig 计算两列之间的平均值

我有一个包含三列的文件，分别代表日期和最小/最大温度值。010120104.515.9我需要计算每一天的平均值。使用UDF似乎很容易做到这一点，但我想知道没有它是否有办法做到这一点。我设法实现了这样的事情(连接温度然后使它们变平)但对我来说它似乎太复杂了:table=LOAD'e7/temp.csv'USINGPigStorage('\t')as(day:chararray,min:float,max:float);day_group=FOREACHtableGENERATEday,FLATTEN(TOKENIZE(CONCAT(CONCAT((chararray)min,','),(

hadoop - 如何在 Hadoop 中取两个 EPOCH 字段的平均值？

如何在Hadoop中对两个EPOCH时间字段取平均值？值采用以下格式(1235000501、1235000081) 最佳答案你想要这个:MIN(ts1,ts2)+ABS(ROUND((ts1-ts2)/2))? 关于hadoop-如何在Hadoop中取两个EPOCH字段的平均值？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/36448326/

何在 hadoop section stackoverflow hive apache-pig hadoop2

hadoop - 如何找到 Pig 中一列的平均值和两列相减的平均值？

我不熟悉使用PigLatin编写脚本。我坚持要编写一个pig脚本，它会找到列值的平均值，还会找到两列之间相减值的平均值。我正在从具有如下开始时间和结束时间列的csv文件中读取数据:"starttime","endtime","23","46","32","49","54","59"目前我试过的代码如下:file=LOAD'/project/timestamp.csv'UsingPigStorage(',')AS(st:int,et:int);start_ts=FOREACHfileGENERATEst;grouped=groupstart_tsbystILLUSTRATEgrouped

hadoop Pig section 34 39 apache-pig bigdata

hadoop - 如何在 Pig Latin 中生成大量数据的不同平均值？

我有一个大型出租列表数据集，我想根据卧室数量生成每个城市的平均价格。我有以下类型的行:{(city:'NewYork',num_bedrooms:1,price:1000.00),(城市:'纽约'，卧室数:2，价格:2000.00)，(city:'NewYork',num_bedrooms:1,price:2000.00),(城市:'芝加哥'，卧室数:1，价格:4000.00)，(城市:'芝加哥'，卧室数:1，价格:1500.00)}使用Pig，我想获得以下格式的结果:{(city:'纽约',1:1500.00,2:2000.00),(城市:'芝加哥'，1:2750.00)}或者，我也

中生何在 num_bedrooms rental strong hadoop cassandra apache-pig

hadoop - Hive - 每小时窗口平均值

我在Hive表中有这样的数据:+-------------------+-------+---------+--------+|_c0|name|value0|value1|+-------------------+-------+---------+--------+|2015-10-0713:01|john|10.0|100||2015-10-0713:20|john|20.0|200||2015-10-0713:41|john|15.0|300||2015-10-0714:00|john|30.0|300||2015-10-0714:20|john|60.0|200||2015-

hadoop Hive section code 2015 hdfs psql hiveql

hadoop - MapReduce - 如何计算相对值(平均值、前 k 等)？

我正在寻找一种在MapReduce过程中计算“全局”或“相对”值的方法-平均值、总和、最高等。假设我有一个worker列表，他们的ID与他们的薪水相关联(并且一堆其他的东西)。在处理的某个阶段，我想知道谁是收入最高10%的worker。为此，我需要一些我无法理解的“全局”值(value)观。如果我将所有值都发送到一个单一的reducer中，它具有全局View，但是我失去了并发性，这看起来很尴尬。有没有更好的办法？(我想使用的框架是Google的，但我正在尝试找出技术-请不要使用特定于框架的技巧) 最佳答案我的第一个想法是做这样的事

MapReduce hadoop section 射器薪水 average

sql - 如何找到 hh :mm:ss in hive 的平均值

假设我有一个包含列script_name、start_time、end_time、duration的配置单元表。开始时间、结束时间和持续时间的格式为hh:mm:ss。我的要求是找到这些列最近7天的平均时间并放入文件中。最佳答案转换为unix_timestamp，求和，除以3，转换为bigint并转换回HH:mm:ss:withdataas--Dataexample.Useyourtableinstead(select'12:10:30'start_time,'01:10:00'end_time,'02:10:00'duratio

hive sql section 39 unix_timestamp unix hadoop hiveql

hadoop - 在 hiveql 中，如果某些数据隐式不存在，计算平均值的最优雅/最有效的方法是什么？

在Hiveql中，当数据中存在“差距”并且它们之间存在隐式重复值时，计算平均值的最优雅和最高效的方法是什么？即考虑具有以下数据的表格:+----------+----------+----------+|Employee|Date|Balance|+----------+----------+----------+|John|20181029|1800.2||John|20181105|2937.74||John|20181106|3000||John|20181110|1500||John|20181119|-755.5||John|20181120|-800||John|20181

hadoop hiveql 39 2018 November

hadoop - 使用 Hadoop/Mapreduce 计算数字的平均值

我正在使用Hadoop/Mapreduce计算数字的平均值有结构guidbanidcountviewg1b11g1b21g1b12g1b11g2b11g2b21g2b11g2b31g3b11我想要每个guidbanid的平均countview计数？(我的想法是average=5/2withguidg1(2是总数另一个banid:b1，b2)) 最佳答案因此，如果我理解您的问题，您正在寻找的答案可能如下所示:g1b11g1b21g1b12g1b11Averagefor"g1"=5/2(totalcount/uniquebanidco

Mapreduce hadoop strong section banid numbers average

hadoop - 我可以使用 Combiner 在 mapreduce 作业中计算平均值吗？

我想实现一个mapreduce作业，该作业读取具有以下架构的Parquet文件:{optionalint96dropoff_datetime;optionalfloatdropoff_latitude;optionalfloatdropoff_longitude;optionalint32dropoff_taxizone_id;optionalfloatehail_fee;optionalfloatextra;optionalfloatfare_amount;optionalfloatimprovement_surcharge;optionalfloatmta_tax;optional

中计 mapreduce optional code float hadoop average reducers combiners

69 70 717273 74 75