草庐IT

行人计数

全部标签

hadoop - 计数并压扁 pig

您好,我有这样的数据:{"user_id":"kim95","type":"Book","title":"ModernDatabaseSystems:TheObjectModel,Interoperability,andBeyond.","year":"1995","publisher":"ACMPressandAddison-Wesley","authors":[{"name":"null"}],"source":"DBLP"{"user_id":"marshallo79","type":"Book","title":"Inequalities:TheoryofMajorizatio

java - 如何在 for 循环中迭代文本并在 MapReduce() 中查找特定文本的计数

所以这里有一段关于特定数据集的Reduce()代码,它有一堆指定作为“键”,指定一个特定命名的人的薪水作为“值”publicstaticclassReduceEmployeeextendsReducer{publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritableval:values){sum+=val.get();}context.write(key,newIntWritable(sum));}}如果我理解正确

hadoop - Hadoop 中自定义计数器的替代文本

我定义了以下计数器staticenumBadRecordCounters{NO_CREATION_DATE,UNKNOWN_USER_ID,UNPARSEABLE_RECORD,UNTAGGED_POSTS}它们显示如下14/05/0621:43:06INFOmapred.JobClient:com.aravind.learning.hadoop.mapred.techtalks.StackoverflowDataWranglerMapper$BadRecordCounters14/05/0621:43:06INFOmapred.JobClient:UNKNOWN_USER_ID=93

java - MapReduce 计数问题

我是hadoop的新手,我尝试制作一个程序,该程序将采用一个输入文件来描述带有边的图形(例如:(A,B),(A,C),(B,D),(A,D))我想计算每个顶点的度数并像这样显示它:(A,B)d(A)=3(A,C)d(A)=3(A,D)d(A)=3(A,B)d(B)=2(B,D)d(B)=2(A,C)d(C)=1(A,D)d(D)=2(B,D)d(D)=2目前我能够使我的map正常工作(拆分2个顶点并将发出为(例如:),但是reduce有一个我无法理解的问题。当我在for循环之外执行context.write(key,result);时,显示的结果始终为1。我尝试调试但变量sum具有正确

hadoop - 如何在 Hadoop 2.0.3 alpha 中创建自定义计数器

我是Hadoop的新手。我正在尝试在我的reducer中编写一个自定义计数器。我找到了一个使用自定义计数器的示例,但它是在hadoop1.x中。我没有为hadoop2.x中的计数器找到任何合适的解决方案谁能帮我解决这个问题..?提前致谢 最佳答案 通过查看2.x的代码,我相信它的工作方式与早期版本的示例相同计数器由org.apache.hadoop.mapreduce.counters.AbstractCounters维护当请求一个不在缓存中的计数器时,findCounter会即时生成一个新的计数器publicsynchronize

hadoop - 如何在运行 pig 时查看所有 Hadoop 计数器

我通过命令行运行我的pig,我想在运行完成后查看所有Hadoop计数器。我已经编写了基于此blog写入Hadoop计数器的UDF,但我想测试它-当pig开始时我可以看到来自构造函数的日志,但后来我看不到日志目前我看到的只是简单的静态-见下文Counters:Totalrecordswritten:3487Totalbyteswritten:38078SpillableMemoryManagerspillcount:0Totalbagsproactivelyspilled:101Totalrecordsproactivelyspilled:12464701 最

java - 分布式子串计数

我是Hadoop的新手,我正在尝试实现一种算法,该算法只计算长度为x的子字符串的出现次数。它很长但很简单。这是一个带有输入的实用示例:"ABCABCAGD"x=4,m=2map提取长度为x的子字符串(我们称之为x字符串):ABCA,BCAB,CABC,ABCA,BCAG,CAGD`对于每个x字符串,我提取其“签名”,定义为长度m的字典次要子串:AB,AB,AB,AB,AG,AG现在,我为每个“签名”生成另一个字符串,如下所示:我连接具有相同签名且连续的x字符串。在示例中有2个签名AB,CB。属于两个签名的x字符串是连续的,所以我的Map任务的输出是:Key=AB;Value=ABCAB

hadoop - 查看计数行作为查询结果中的列

第一件事:我能够以一种方式获取数据。我的目的是提高查询结果的可读性。我正在寻找是否可能。我有一张由设备提供的table。我想获取按两个相同列分组的每小时发送的数据数。需要对这两列进行分组以确定一种设备类型。表结构如下:|identifier-1|identifier-2|day|hour|data_name|data_value||--------------|--------------|------------|------|-----------|------------||type_1|subType_4|2016-08-25|0|Key-30|4342||----------

java - 计数器在 reducer 代码中不起作用

我正在从事一个大型hadoop项目,并且有一个小型KPI,我必须在减少输出中仅写入前10个值。为了完成这个要求,我使用了一个计数器并在计数器等于11时中断循环,但reducer仍然将所有值写入HDFS。这是一个非常简单的java代码,但我卡住了:(为了测试,我创建了一个独立的类(java应用程序)来执行此操作,并且它在那里工作;我想知道为什么它在reducer代码中不起作用。如果我遗漏了什么,请有人帮助我并提出建议。map-减少代码packagecomparableTest;importjava.io.IOException;importjava.nio.ByteBuffer;impo

hadoop - Hive - 选择计数 (*) 不与 Tez 一起使用但与 MR 一起使用

我有一个包含Parquet数据的Hive外部表。当我运行selectcount(*)fromtable1时,它因Tez而失败。但是当执行引擎更改为MR时,它就可以工作了。知道为什么Tez失败了吗?我在使用Tez时遇到以下错误:Error:org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.tez.TezTaskatorg.apache.hive.servi