草庐IT

行人计数

全部标签

hadoop - Hive:如何在不使用科学计数法的情况下显示和存储一个20位整数?

处理20位账号:21345698778965412365由于bigint只能处理小于19位的数字,将其转换为bigint会导致错误数字。我试图将其转换为string,但出现了科学记数法,并且string和decimal都丢失了最后的数字。那么如何在没有科学计数的情况下显示和存储呢?欢迎大家帮忙。 最佳答案 尝试使用DECIMAL(precision,scale)数据类型,特别是DECIMAL(20,0)或只是DECIMAL(20)案例。precision参数表示该值可能表示的总位数,而不考虑分数,scale参数表示该值将具有的小数位

java - Hadoop:如何维护数据节点方法执行的计数器?

我想知道如何维护一个方法在MapReduce作业中的特定数据节点上执行的次数计数。不幸的是,到目前为止我开发的代码产生了非常不利的结果。使用“makeRequest”方法传输的计数变量表现得非常不合理(并产生重复模式)。结果可以在这里查看:对于任何给定的MapReduce作业,“计数”应该只会增加。我觉得好像重要的是要注意我使用的主要输入文件只是数字:0-750,000(每行一个数字)。所需的最终结果应向服务器报告750,000的计数。只是提供一点背景知识:我目前正在开发一个Prime-NumbersMapReduce程序,该程序旨在定期(基于计时器)根据处理到服务器的数字“数量”传递

hadoop - 在对多行数据集使用 Pig 时对相似值执行计数

我是PIG的新手,正在尝试解决多行输入(网站)的字数统计(网站)问题。例如我的输入数据集有值输入数据Emailwebsitese1web1web2web3web1....e2web2web3web2web2web4...e3web1web2web1web4.....我想要的输出将是Emailwebsitese1web1(2)web2(1)web3(1)....e2web2(3)web3(1)web4(1)...e3web1(2)web2(1)web4(1).....在我的数据集中,我有将近50000个电子邮件ID(用户) 最佳答案

java - hadoop倒排索引计数

我有两个文件作为输入:fileA.txt:learnhadooplearnjava文件B.txt:hadoopjavaeclipseeclipse期望的输出:learnfileA.txt:2hadoopfileA.txt:1,fileB.txt:1javafileA.txt:1,fileB.txt:1eclipsefileB.txt:2我的归约方法:publicvoidreduce(Textkey,Iteratorvalues,OutputCollectoroutput,Reporterreporter)throwsIOException{SetoutputValues=newHash

hadoop - 在 HBase 中使用 MapReduce 计算平均计数

我有一个名为Log的表,其中每一行代表单个事件,并且具有这样的表结构info:date,info:ip_address,info:action,info:info数据的例子是这样的ColumnFamily:infodate|ip_address|action|info3March2014|191.2.2.2|delete|blabla4March2014|191.2.2.3|view|blabla5March2014|191.2.2.4|create|blabla3March2014|191.2.2.5|delete|blabla4March2014|191.2.2.5|create|

hadoop - 如何编写用于计算节点度和计数的pig脚本

如何为此编写pig脚本?我有一个文本文件,其中包含彼此为friend的用户的ID例如(数据.txt)idid12131421253148所以用户id1是3个人的friend,用户id2是2个人的friend等等......我想计算并按递减顺序列出最大好友数以及有多少用户拥有那么多好友所以是这样的:1个用户有3个friend,1个用户有2个friend,2个用户有1个friend试图获得这样的列表numberofusernumberoffriends(highestfirst)131221感谢任何帮助 最佳答案 你能试试这个吗?输入.

hadoop - 如何检索 hadoop 作业映射/减少输入/输出计数

有什么方法可以在运行hadoop作业后检索并打印reduce输出记录的数量?我正在迭代运行map-reduce,当我之前的reduce输出计数与当前map输出计数相同时,我想停止。 最佳答案 根据您的Hadoop版本,名称可能不同。但一般来说,您可以从作业对象访问您的计数器。job.getCounters().findCounter("org.apache.hadoop.mapred.Task$Counter","REDUCE_OUTPUT_RECORDS").getValue();查阅WebUI以查看您的作业中定义了哪些计数器,并

hadoop - Apache PIG - 按 ID 计数(*)分组并创建排名

各位专家好,我有这个数据集:Field_AField_BDATEJohn101-01-2016John105-01-2016Cate105-01-2016Cate401-01-2016Cate605-01-2016Perdi401-01-2016我正在尝试计算每个Field_A的计数(*)并根据字段A和日期创建排名。基本上我想返回这个:Field_ACountRankField_BJohn211John221Cate331Cate344Cate336Perdi154为此,我正在尝试使用以下代码:DATA=load'...'AS(Field_A:Int,FIELD_B:Int,DATE:

python - 映射/减少计数的两阶段排序

这个python3程序尝试使用map/reduce从文本文件中生成单词的频率列表。我想知道如何对字数进行排序,在第二个reducer的yield语句中表示为“count”,以便最大的计数值出现在最后。目前,结果的尾部如下所示:"0002""wouldn""0002""wrap""0002""x""0002""xxx""0002""young""0002""zone"对于上下文,我将任何单词文本文件传递到python3程序中,如下所示:pythonMapReduceWordFreqCounter.pybook.txt这是MapReduceWordFreqCounter.py的代码:fro

hadoop - hive 中的平均计数

我有一个hive表idname....1a2a3a4b5b6b7a需要求名字出现次数的平均值,nameavga0.57(4/7)b0.42(3/7)请给我一个查询建议。 最佳答案 selectname,round(count(*)/sum(count(*))over(),2)asavgfrommytablegroupbynameorderbyname;+------+------+|name|avg|+------+------+|a|0.57||b|0.43|+------+------+