草庐IT

input-group

全部标签

hadoop - 当 mapred.job.shuffle.input.buffer.percent=0.70 时,pig join 在 reducer 中出现 OutOfMemoryError

我们正在一个小表和一个大倾斜表之间进行简单的pig连接。由于另一个错误(pigskewedjoinwithabigtablecauses"Splitmetadatasizeexceeded10000000"),我们无法使用"usingskewed":(如果我们使用默认的mapred.job.shuffle.input.buffer.percent=0.70我们的一些reducer在shuffle阶段会失败:org.apache.hadoop.mapred.Task:attempt_201305151351_21567_r_000236_0:Mapoutputcopyfailure:ja

hadoop - Spark 流 : How to process using multiple inputs to job?

输入1:KV数据流。输入2:一些静态数据分区(用于处理输入1中的流)问题可以建模为下图:与HDFS/RDD分区共置:我们如何确保流式任务Map1、Map2和Map3在存在HDFS/RDD分区的机器上运行?图像描述:假设K是流式key(不是元组)。FirstMap将其转换为元组(具有空值)并将其广播给3个映射器。每个映射器都在不同的节点上运行,这些节点包含RDD(或HDFS文件,这是第二个输入和静态数据)的不同分区。每个Mapper使用RDD分区来计算键的值。最后,我们要聚合键的值(使用reduceByKey_+_)。 最佳答案 如果

hadoop - 带 ORDER BY 的 HIVE GROUP_CONCAT

我有一张table我期望这样的输出(将结果分组到一条记录中,group_concat应按值DESC对结果进行排序)。这是我试过的查询,SELECTid,CONCAT('{',CONCAT_WS(',',GROUP_CONCAT(CONCAT('"',key,'":"',value,'"'))),'}')ASvalueFROMtable_nameGROUPBYid我希望目标表中的值应该按源表值排序(降序)。为此,我尝试执行GROUP_CONCAT(...ORDERBYvalue)。看起来Hive不支持这个。有没有其他方法可以在配置单元中实现这一点? 最佳答案

hadoop - 无法运行 hadoop 流作业 : Missing required options: input, 输出

我正在尝试在DSE3.1分析服务器集群上运行流媒体作业。我正在使用CassandraCF进行输入。但它提示输入和输出参数,但它们已设置(我设置它只是因为提示):dsehadoopjar$HADOOP_HOME/lib/hadoop-streaming-1.0.4.8.jar\-Dcassandra.input.keyspace="tmp_ks"\-Dcassandra.input.partitioner.class="MurMur3Partitioner"\-Dcassandra.input.columnfamily="tmp_cf"\-Dcassandra.consistencyle

java - Hadoop hdfs 显示 ls : `/home/hduser/input/' : No such file or directory error

我已经使用thistutorial在一台机器上安装了Hadoop2.6.我使用的是Ubuntu12.04机器和Java版本1.6.0_27。我已经为Hadoop操作创建了单独的用户hduser。我已经设置了HADOOP_HOME环境变量的值/usr/local/hadoop我已经提取了Hadoop分布。现在我正在关注example.但是当我执行命令时$HADOOP_HOME/bin/hdfsdfs-ls/home/hduser/input/它给出了以下错误-15/01/0218:32:38WARNutil.NativeCodeLoader:Unabletoloadnative-hado

hadoop - Hive Group by 自己加入后

各位,我们有一个要求,我们希望在使用self加入HIVE表后应用groupby子句。例如数据CUSTOMER_NAME、PRODUCT_NAME、PURCHASE_PRICEcustomer1,product1,20customer1,product2,30customer1,product1,25现在我们想通过考虑所有产品的总和以及CUSTOMER_NAME、PRODUCT_NAME的后续组结果集来获取客户(只计算价格总和后的前5名客户,子查询中不存在产品名称)selectcustomer_name,product_name,sum(purchase_price)fromcustom

hadoop - pig : Failed to parse: mismatched input 'id' expecting set null

我正在使用Pig0.12.1并具有以下Pig代码:C=LOAD'$file'USINGmyCustomLoader();D=FOREACHCGENERATEkey#id;我正在使用自定义加载程序加载文件。然后我想生成存储在key中的所有ID,一个映射。为什么我会收到以下错误消息:14/06/2716:56:21ERRORpig.PigServer:exceptionduringparsing:Errorduringparsing.mismatchedinput'id'expectingsetnullFailedtoparse:mismatchedinput'id'expectingse

hadoop - collect_set on array type with group by 在配置单元中

我有下表,其中包含id的重复项以及每个id的值数组,我想找出每个id的唯一值,该怎么做?CREATETABLEtest(idstring,valuesarray)当我运行以下命令时,它会抛出错误,因为collect_set仅支持原始类型值。selectid,collect_set(values)fromtsgroupbyid;错误:FAILED:UDFArgumentTypeExceptionOnlyprimitivetypeargumentsareacceptedbutarraywaspassedasparameter1. 最佳答案

java - 如何为 group by 编写 pig 代数 udf

我想编写一个pig代码来执行分组并生成31个字段的总和,但在此之前我需要做一些自定义处理,为此我编写了一个eval函数。我想如果我可以将GROUP和SUM操作包含到UDF中,我可以让它运行得更快。要做到这一点,我可以使用代数UDF如果是,我的inital()、intermed()和final()的返回模式会是什么样子,如果不是,我还能如何实现它。下面是我的代码,谢谢。a=LOAD'./a'usingPigStorage('|')AS(val:int,grp1,grp2,amt1:long,amt2:long,amt3...amt31:long);b=FOREACHaGENERATEmy

hadoop - 用户组信息 : No groups available for user

我正尝试在mapreduce中提交远程作业,但出现错误[1]。我什至在远程hadoop的hdfs-site.xml中设置了内容[2],并更改了权限[3],但问题仍然存在。客户端是xeon,super用户是xubuntu。如何在mapreduce中添加远程用户提交权限?如何为xeon设置组?[1]2015-04-2305:57:35,648WARNorg.apache.hadoop.security.UserGroupInformation:Nogroupsavailableforuserxeon[2]dfs.web.ugixeon,webuser,webgroup[3]2041hdfs