草庐IT

hadoop - 无法使用 Apache Pig 过滤数据

我在Ubuntu12.04上使用Hadoop1.0.3、Pig0.11.0。HDFS中的part-m-00000文件内容如下training@BigDataVM:~/Installations/hadoop-1.0.3$bin/hadoopfs-cat/user/training/user/part-m-000001,Praveen,20,India,M2,Prajval,5,India,M3,Prathibha,15,India,F我将它装入一个袋子中,然后按如下方式对其进行过滤。Users1=load'/user/training/user/part-m-00000'as(user

Apache Pig 的 Python UDF 失败

我正在使用Pig做家庭作业。我已经计算出他需要的所有值,但我需要以特定格式输出它们,所以我用Python编写了一个UDF。它传递了一包元组{(id:int,tfidf:double)}(pig的文档没有具体说明这在Python中的外观,但从示例中我猜它是一个可迭代的元组)并返回一个chararray。实际代码是:@outputSchema('doclist:chararray')defformat_list(docs):outs=[]fordocid,tfidfindocs:outs.append('{0}:{1}'.format(docid,tfidf))return'\t'.joi

java - Java 中的嵌入式 Pig : java. io.IOException:无法运行程序 "cygpath"

我正在尝试运行基本的EmbeddedPigJava代码。我正在从远程计算机访问Hadoop集群。Hadoop版本:2.0.0-cdh4.3.0,pig版本:0.11.0-cdh4.3.0代码如下所示:PropertieslProperties=newProperties();lProperties.setProperty("fs.defaultFS",":");lProperties.setProperty("yarn.resourcemanager.address",":");try{PigServerpigServer=newPigServer(ExecType.MAPREDUCE

hadoop - pig + hbase + hadoop2 集成

有没有人在hadoop-2.20+hbase-0.98.0+pig-0.12.0组合的环境下,在hadoop-2.2.0上从pig-0.12.0加载数据到hbase-0.98.0成功的经验没有遇到这个错误:ERROR2998:Unhandledinternalerror.org/apache/hadoop/hbase/filter/WritableByteArrayComparable一行日志跟踪:java.lang.NoClassDefFoundError:org/apache/hadoop/hbase/filter/WritableByteArra我在网上搜索并找到了一些问题和解决

hadoop - pig-avro : how to customize the way, avrostorage 加载文件

我有一个要求,我们需要自定义使用avrostorage在pig中加载文件的方式:例如,我有一个具有以下架构的avro文件:{"namespace":"avroColorCount","type":"record","name":"User2","fields":[{"name":"name","type":"string"},{"name":"content","type":"bytes"}]}现在如果我使用下面的命令它工作正常:x=load'sample.avro'USINGAvroStorage()AS(name:chararray,content:bytearray);但是,如果

hadoop - pig 如何过滤不同的夫妇(对)

我是Pig的新手。我有一个Pig脚本,它在两个元素之间生成制表符分隔的对。每行一对,例如:JohnPaulTomNikMarkBillTomNikPaulJohn我需要过滤掉重复的组合。如果我使用DISTINCT,我会过滤掉双“TomNik”条目。结果是:JohnPaulTomNikMarkBillPaulJohn这种方法的问题在于,我只剩下“JohnPaul”和“PaulJohn”,就我的目的而言,它们应该被视为相同(相同的组合)。有没有办法删除排列组合? 最佳答案 我不确定字符串比较在Pig中是如何实现的,但尝试类似的东西可能是

hadoop - apache pig 下的所有平均组合?

我刚开始使用apachepig进行开发。我在HDFSMeasurements.csv上存储了一个文件,其结构如下1;0x3333333333331091;21.2;67.5;2.1;2.0;12.2;15/04/201415:502;0x3333333333331091;21.2;67.4;2.1;12.0;8.5;15/04/201414:223;0x3333333333331091;21.2;67.4;2.1;18.0;7.2;15/04/201414:224;0x3333333333331091;21.2;69.5;2.1;19.0;3.2;15/04/201414:225;0x

hadoop - 通过连接两列在 pig 中过滤

我有两个表格,格式如下表1:com_Data#ccbbmm#4122256342243562表2:#姓名cid#萨西41-22-2563索曼42-47-2562我想比较表1中的三列ccbbmm,并且需要过滤掉表2中与组合值匹配的所有列如何在pig中过滤当尝试使用pig连接由“-”分隔的三列时导致错误下面是我使用的代码a=LOAD'default.com_data'USINGorg.apache.hcatalog.pig.HCatLoader();b=foreachagenerateconcat(cc,'-',bb,'-',mm);如何过滤表格? 最佳答案

hadoop - 删除 Pig 输出中的括号和逗号

目前我的输出如下:((130,1))((131,1))((132,1))((133,1))((137,1))((138,2))((139,1))((140,1))((142,2))((143,1))我想要这样:130113111321我的代码如下:A=LOAD'user-links-small.txt'AS(user_a:int,user_b:int);B=ORDERABYuser_a;grouped=COGROUPBBYuser_a;C=FOREACHgroupedGENERATECOUNT(B);D=COGROUPCBY$0;E=FOREACHDGENERATE($0,COUNT(

hadoop - PIG 设置抛出错误

我试图在我的Fedora20系统中安装PIGv0.13.0。提取tar.gz内容后,我为JAVA_HOME和PIG/bin设置了PATH。然后我在控制台中输入命令pig,这就是我得到的结果:无法理解出了什么问题:[root@localhost/]#pig14/12/2100:05:15INFOpig.ExecTypeProvider:TryingExecType:LOCAL14/12/2100:05:15INFOpig.ExecTypeProvider:TryingExecType:MAPREDUCE14/12/2100:05:15INFOpig.ExecTypeProvider:Pi