草庐IT

collecting

全部标签

hadoop - 错误 : java. lang.ClassNotFoundException : org. apache.commons.collections4.map.LinkedMap

执行命令时出错:hadoopjar/home/edureka/Desktop/firstnlast.jarFirstandLasthdfs:/FirstnLast/first-last_samplehdfs:/FirstnLastoutput代码如下:importjava.io.IOException;/*importjava.util.ArrayList;importjava.util.Iterator;importjava.util.StringTokenizer;*/importorg.apache.commons.collections4.map.LinkedMap;impor

hadoop - 在配置单元中的移动窗口函数上执行 collect_set 时只保留不同的行

假设我有一个包含3行的配置单元表:merchant_id、week_id、acc_id。我的目标是每周收集前4周内的唯一客户,我正在使用移动窗口来执行此操作。我的代码:创建测试表:CREATETABLEtable_test_test(merchant_idINT,week_idINT,acc_idINT);INSERTINTOTABLEtable_test_testVALUES(1,0,8),(1,0,9),(1,0,10),(1,2,1),(1,2,2),(1,2,4),(1,4,1),(1,4,3),(1,4,4),(1,5,1),(1,5,3),(1,5,5),(1,6,1),(

hadoop - 如何在配置单元 udf 中使用 collect_set 的结果 - 评估方法?

Hive查询-select...MYUDF(collect_set(col1))..fromtableN这里的col1是字符串类型。我想对传递的collect_set数据执行某些逻辑。对于用户定义的函数,我正在扩展类UDF并使用评估方法。当数组从配置单元传递时,评估方法的签名应该是什么。我想从UDF返回字符串数组。public****evaluate(****){} 最佳答案 ArrayList(importjava.util.ArrayList) 关于hadoop-如何在配置单元udf

java - 在 Hadoop 中使用 context.write() 或 outputCollector.collect() 写入输出的成本?

我刚刚开始学习Hadoop,并且仍在尝试和尝试理解事物,我真的很好奇OutputCollector类collect()方法的用法,从现在开始我找到的所有示例都只调用此方法一次。如果这种方法的调用成本真的很高(因为它正在将输出写入文件)?在考虑不同的场景时,我遇到了我发现需要不止一次调用它的情况。同样明智的是下面是给定的代码片段publicstaticclassReduceextendsMapReduceBaseimplementsReducer{publicvoidreduce(IntWritablekey,Iteratorvalues,OutputCollectoroutput,Re

sql - 使用 collect_set 的 Hive 查询

我有2个表,sample_table1,下面有两列C1C2001a001b001e002c002b003a003c和sample_table2两列为C3C4a0b1c0d1e0我想得到这样的输出F1F20011[a,b,e]->[0,1,0]->1(ifoneoftheitemsinthecollection([a,b,e]inthiscase)is1,thenColumnF2shouldbe1)>0021[c,b]->[0,1]->1>0030[a,c]->[0,0]->0>我尝试了很多Hive的内置聚合函数collect_set,但无法解决。我想知道我是否可以在不编写任何自定义UD

sql - hive collect_set 数组操作

我正在处理大型数据集上的配置单元,我有一个包含列数组的表,列的内容如下。["20190302Prod4""20190303Prod1""20190303Prod4""20190304Prod4""20190305Prod3""20190307Prod4""20190308Prod4""20190309Prod4""20190310Prod2""20190311Prod1""20190311Prod4""20190312Prod1""20190312Prod4""20190313Prod2""20190313Prod1""20190313Prod4""20190314Prod4""201

hadoop - Hive (Hadoop) 中的 COLLECT_SET()

我刚刚了解了Hive中的collect_set()函数,并开始从事开发3节点集群的工作。我只有大约10GB需要处理。然而,这项工作确实需要永远。我认为collect_set()的实现中可能存在错误,我的代码中存在错误,或者collect_set()函数确实是资源密集型的。这是我的HiveSQL(没有双关语意):INSERTOVERWRITETABLEsequence_result_1SELECTsess.session_keyassession_key,sess.remote_addressasremote_address,sess.hit_countashit_count,COLLE

hadoop - collect_set on array type with group by 在配置单元中

我有下表,其中包含id的重复项以及每个id的值数组,我想找出每个id的唯一值,该怎么做?CREATETABLEtest(idstring,valuesarray)当我运行以下命令时,它会抛出错误,因为collect_set仅支持原始类型值。selectid,collect_set(values)fromtsgroupbyid;错误:FAILED:UDFArgumentTypeExceptionOnlyprimitivetypeargumentsareacceptedbutarraywaspassedasparameter1. 最佳答案

garbage-collection - Hadoop .20 数据节点上的 "GC Overhead limit exceeded"

我搜索过,但没有找到太多与HadoopDatanode进程因超出GC开销限制而死掉相关的信息,所以我想我应该发布一个问题。我们正在运行一项测试,我们需要确认我们的Hadoop集群可以处理存储在其上的约300万个文件(目前是一个4节点集群)。我们使用的是64位JVM,我们已经为名称节点分配了8g。然而,当我的测试程序向DFS写入更多文件时,数据节点开始因以下错误而消失:线程“DataNode:[/var/hadoop/data/hadoop/data]”中的异常java.lang.OutOfMemoryError:GCoverheadlimitexceeded我看到了一些关于某些选项的帖

php - Laravel Collections 计数结果

在用户模型(有4条记录的表)上,当我这样做时:$coll=User::all();echo$coll->count();我得到找到的记录数量(4)。但是当我这样做的时候:$coll=User::find(2);echo$coll->count();我没有得到1(如我所料),而是结果集合中的属性数量(在本例中为23)。如何检查是否找到了不止一条记录?更新:好的,多亏了大家,我现在看到了集合和模型之间的结果差异。但我真正的问题是我必须检测我得到的是模型还是集合。根据这个结果,我对项目(使用map())或模型中的字段内容进行了一些更改。如何检测结果是模型还是集合?if(count($coll