草庐IT

PIG_HOME

全部标签

hadoop - Union 和 Join 在 apache pig 中的结合

我在hdfs中有两个文件包含如下数据,File1:id,name,age1,x1,152,x2,143,x3,16文件2:id,name,grades1,x1,A2,x2,B4,y1,A5,y2,C我想产生以下输出:id,name,age,grades1,x1,15,A2,x2,14,B3,x3,16,4,y1,,A5,y2,,C我正在使用Apachepig执行操作,是否可以在pig中获得上述输出。这是一种Union和Join两者。 最佳答案 因为您可以在pig中进行联合和加入,所以这当然是可能的。无需深入研究确切的语法,我可以告诉

hadoop - 传递 JVM 选项以指向 Oozie Workflow 中 Pig Action 中的 log4j.properties 文件

在我的Oozie工作流程中,有一个pigAction。运行时,它正在CDH中寻找log4j.properties文件,因为我没有在我的jars中提供该文件。现在,我有了log4j.properties文件,我只需要将它作为Pig操作中的JVM选项传递即可。有什么办法吗? 最佳答案 无法将自定义log4j属性文件传递给Oozie工作流中的Pig操作。PigMain.java文件不允许将以下参数作为参数传递。static{DISALLOWED_PIG_OPTIONS.add("-4");DISALLOWED_PIG_OPTIONS.ad

hadoop - 如何基于 Pig/Hive 中的关键子集进行聚合?

我有以下数据集,其中emp_id、org_id和res_id是关键列Inputdatais-emp_id|org_id|res_id|emp_sal123|345|678|10000123||678|20000123|345||30000|345|678|10000103|305|608|40000103|||50000如果剩余记录是完整键的子集,我需要聚合emp_sal。例如"123|345|678|"在输入数据集中还有3个子集。Expectedoutputis-emp_id|org_id|res_id|emp_sal123|345|678|70000103|305|608|9000

hadoop - 如何限制 Pig 脚本启动的并发作业数?

我正在尝试使用Hortonworkssandbox在Pig中为POC实现简单的数据处理流程.思路如下:有一组已经处理过的数据。新数据集应添加到旧数据中,不要重复。出于测试目的,我使用非常小的数据集(小于10KB)。对于虚拟机,我分配了4GBRAM和4个处理器内核中的2个。这是我的Pig脚本:--CONFIGURABLEPROPERTIES%DEFAULTatbInput'/user/hue/ATB_Details/in/1'%DEFAULTatbOutputBase'/user/hue/ATB_Details/out/1'%DEFAULTatbPrevOutputBase'/user/

hadoop - PIG UDF 抛出错误

我在PIG脚本中遇到错误。pig脚本:REGISTER/var/lib/hadoop-hdfs/udf.jar;REGISTER/var/lib/hadoop-hdfs/udf2.jar;INPUT_LINES=Load'hdfs:/Inputdata/DATA_GOV_US_Farmers_Market_DataSet.csv'usingPigStorage(',')AS(FMID:chararray,MarketName:chararray,Website:chararray,Street:chararray,City:chararray,County:chararray,Stat

hadoop - 这两种 Pig 数据类型有什么区别?

给出这个例子:describeA;A:{ht.udf.cleanlog_log_5:(ip:chararray,property_id:int)}我的理解是A是一个包,由ht.udf.cleanlog_log_5类型的元组组成。(正确吗?)当我应用此转换时:B=FOREACHAGENERATEFLATTEN($0);describeB;B:{ht.udf.cleanlog_log_7::ip:chararray,ht.udf.cleanlog_log_7::property_id:int}B是什么?它是一个带有未命名元组的包吗?每个元组在哪里有两个命名字段?(即ht.udf.clean

java - PIG/Hadoop 问题 : ERROR 2081: Unable to setup the load function

这个问题在这里已经有了答案:howtoloadfilesonhadoopclusterusingapachepig?(3个答案)关闭2年前。我正在运行Pig0.13.0和Hadoop2.5.1,它们都是从Apache发行版安装的,它们不是来自Horton或Cloudera或任何东西的软件包。我正在学习一个教程,当在本地运行Pig($>./pig-xlocal)时,我可以让它正常工作,但是当我尝试在Hadoop实例上运行它时,我收到一条错误消息,提示我很难在Internet上进行研究。这个命令:movies=LOAD'/home/hduser/pig-tutorial-master/mo

hadoop - 使用 Pig 将数据存储到 Hbase 使用 Hue 时出错

我的CDH版本是5.1.2,Hbase版本是0.98.1,Hue版本是3.6.0。我执行了这个pig脚本以在Hue中从Hbase加载数据c=LOAD'hbase://analyze_block_v1'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('d:*','-loadKeytrue');dumpc;我得到了这个错误:ERRORorg.apache.pig.tools.grunt.Grunt-ERROR2998:Unhandledinternalerror.org/apache/hadoop/hbase/mapreduce/

java - Hadoop hdfs 显示 ls : `/home/hduser/input/' : No such file or directory error

我已经使用thistutorial在一台机器上安装了Hadoop2.6.我使用的是Ubuntu12.04机器和Java版本1.6.0_27。我已经为Hadoop操作创建了单独的用户hduser。我已经设置了HADOOP_HOME环境变量的值/usr/local/hadoop我已经提取了Hadoop分布。现在我正在关注example.但是当我执行命令时$HADOOP_HOME/bin/hdfsdfs-ls/home/hduser/input/它给出了以下错误-15/01/0218:32:38WARNutil.NativeCodeLoader:Unabletoloadnative-hado

hadoop - pig : Unable to load data using PigStorage

我在一个txt文件中有这个smaple数据集(格式:名字,姓氏,年龄,性别)(Eric,Ack,27,M),(Jeremy,Ross,29,F)(Jenny,Dicken,27,F),(Vijay,Sampath,40,M)(Angs,Dicken,28,M),(Venu,Rao,28,M)(Mahima,Mohanty,29,F),(Kenny,Oath,28,M)我正在尝试像这样加载此数据:tuple_record=LOAD'~/Documents/Pig_Tuple.txt'USINGPigStorage(',')AS(details:tuple(firstname:charar