草庐IT

PIG_HOME

全部标签

hadoop - Apache Pig 错误消息指南

我正在寻找有关如何解释各种常见PIG脚本错误消息的资源。冒险进入Google/SO之前的第一站。理想情况下,我想要单个页面或可搜索的权威引用列表:常见错误信息可能的原因典型解决方案知道有什么好的引用资料吗? 最佳答案 pig的Errorhandlingfuncspec包含有关错误类型/代码的详细信息。由于这在最近没有更新,我也建议你有一个如果发生不清楚的地方,请查看源代码。 关于hadoop-ApachePig错误消息指南,我们在StackOverflow上找到一个类似的问题:

hadoop - pig load udf 用于从多个子目录加载文件

我想在pig中编写自定义加载udf,用于从目录结构加载文件。目录结构就像一个电子邮件目录。它有一个名为maildir的根目录。在这个目录中,我们有个人邮件持有者的子目录。在每个邮件帐户持有者目录中,都有几个子目录,如收件箱、已发送、垃圾箱等。例如:maildir/mailholdername1/inbox/1.txtmaildir/mailholdername2/sent/1.txt我只想读取所有mailerholdername子目录中的收件箱文件。我无法理解:应该将什么作为参数传递给加载udf应该如何解析整个目录结构并只读取相应的收件箱文件。我想处理一个文件并执行一些数据提取并将其作

hadoop - 无法使用 Apache Pig 过滤数据

我在Ubuntu12.04上使用Hadoop1.0.3、Pig0.11.0。HDFS中的part-m-00000文件内容如下training@BigDataVM:~/Installations/hadoop-1.0.3$bin/hadoopfs-cat/user/training/user/part-m-000001,Praveen,20,India,M2,Prajval,5,India,M3,Prathibha,15,India,F我将它装入一个袋子中,然后按如下方式对其进行过滤。Users1=load'/user/training/user/part-m-00000'as(user

Apache Pig 的 Python UDF 失败

我正在使用Pig做家庭作业。我已经计算出他需要的所有值,但我需要以特定格式输出它们,所以我用Python编写了一个UDF。它传递了一包元组{(id:int,tfidf:double)}(pig的文档没有具体说明这在Python中的外观,但从示例中我猜它是一个可迭代的元组)并返回一个chararray。实际代码是:@outputSchema('doclist:chararray')defformat_list(docs):outs=[]fordocid,tfidfindocs:outs.append('{0}:{1}'.format(docid,tfidf))return'\t'.joi

java - Java 中的嵌入式 Pig : java. io.IOException:无法运行程序 "cygpath"

我正在尝试运行基本的EmbeddedPigJava代码。我正在从远程计算机访问Hadoop集群。Hadoop版本:2.0.0-cdh4.3.0,pig版本:0.11.0-cdh4.3.0代码如下所示:PropertieslProperties=newProperties();lProperties.setProperty("fs.defaultFS",":");lProperties.setProperty("yarn.resourcemanager.address",":");try{PigServerpigServer=newPigServer(ExecType.MAPREDUCE

hadoop - pig + hbase + hadoop2 集成

有没有人在hadoop-2.20+hbase-0.98.0+pig-0.12.0组合的环境下,在hadoop-2.2.0上从pig-0.12.0加载数据到hbase-0.98.0成功的经验没有遇到这个错误:ERROR2998:Unhandledinternalerror.org/apache/hadoop/hbase/filter/WritableByteArrayComparable一行日志跟踪:java.lang.NoClassDefFoundError:org/apache/hadoop/hbase/filter/WritableByteArra我在网上搜索并找到了一些问题和解决

hadoop - pig-avro : how to customize the way, avrostorage 加载文件

我有一个要求,我们需要自定义使用avrostorage在pig中加载文件的方式:例如,我有一个具有以下架构的avro文件:{"namespace":"avroColorCount","type":"record","name":"User2","fields":[{"name":"name","type":"string"},{"name":"content","type":"bytes"}]}现在如果我使用下面的命令它工作正常:x=load'sample.avro'USINGAvroStorage()AS(name:chararray,content:bytearray);但是,如果

hadoop - pig 如何过滤不同的夫妇(对)

我是Pig的新手。我有一个Pig脚本,它在两个元素之间生成制表符分隔的对。每行一对,例如:JohnPaulTomNikMarkBillTomNikPaulJohn我需要过滤掉重复的组合。如果我使用DISTINCT,我会过滤掉双“TomNik”条目。结果是:JohnPaulTomNikMarkBillPaulJohn这种方法的问题在于,我只剩下“JohnPaul”和“PaulJohn”,就我的目的而言,它们应该被视为相同(相同的组合)。有没有办法删除排列组合? 最佳答案 我不确定字符串比较在Pig中是如何实现的,但尝试类似的东西可能是

hadoop - apache pig 下的所有平均组合?

我刚开始使用apachepig进行开发。我在HDFSMeasurements.csv上存储了一个文件,其结构如下1;0x3333333333331091;21.2;67.5;2.1;2.0;12.2;15/04/201415:502;0x3333333333331091;21.2;67.4;2.1;12.0;8.5;15/04/201414:223;0x3333333333331091;21.2;67.4;2.1;18.0;7.2;15/04/201414:224;0x3333333333331091;21.2;69.5;2.1;19.0;3.2;15/04/201414:225;0x

hadoop - 通过连接两列在 pig 中过滤

我有两个表格,格式如下表1:com_Data#ccbbmm#4122256342243562表2:#姓名cid#萨西41-22-2563索曼42-47-2562我想比较表1中的三列ccbbmm,并且需要过滤掉表2中与组合值匹配的所有列如何在pig中过滤当尝试使用pig连接由“-”分隔的三列时导致错误下面是我使用的代码a=LOAD'default.com_data'USINGorg.apache.hcatalog.pig.HCatLoader();b=foreachagenerateconcat(cc,'-',bb,'-',mm);如何过滤表格? 最佳答案