草庐IT

DISALLOWED_PIG_OPTIONS

全部标签

hadoop - pig - 不加载数据

输入数据:(10,1,{(2,3),(4,6)})(10,3,{(2,3),(4,6)})(10,6,{(2,3),(4,6),(5,7)})pig查询:x=load'/data.txt'as(d1:int,d2:int,B:bag{T:tuple(t1:int,t2:int)});但我得到的输出如下:(,,)(,,)(,,)(,,)我不确定我哪里出错了。 最佳答案 您的数据用大括号括起来,这意味着它是一个元组。您必须定义一个外部结构以将数据视为元组,然后放置您的字段。这是你需要的:x=load'/data.txt'as(a:tup

csv - Apache pig 按功能分组没有给出预期的输出

我有csv格式的数据,如下所示。数据格式如下"first_name","last_name","company_name","address","city","county","postal","phone1","phone2","email","web"User.csv下命名的示例数据。该文件包含以下数据。"Aleshia","Tomkiewicz","AlanDRosenburgCpaPc","14,TaylorSt","St.StephensWard","Kent","CT27PP","01835-703597","01944-369967","atomkiewicz@hotma

hadoop - 使用 '-tagFile' 选项的项目文件名字段,使用 PigStorage '-tagFile' 加载,Pig 0.14

AmazonEMR-4.5、Hadoop2.7.2、Pig0.14我想在加载后使用-tagFile选项将文件名字段和选定字段投影到新关系。结果似乎没有意义。示例:tagfile-test.txt(制表符分隔)AAA1232016BBB4562016CCC7892016负载转储test=LOAD'tagfile-test.txt'USINGPigStorage('\t','-tagFile')AS(f0,f1,f2,f3);DUMPtest;(tagfile-test.txt,AAA,123,2016)(tagfile-test.txt,BBB,456,2016)(tagfile-tes

hadoop - 适用于 Hadoop 的 Google Cloud 连接器不适用于 Pig

我将Hadoop与HDFS2.7.1.2.4和Pig0.15.0.2.4(HortonworksHDP2.4)一起使用并尝试使用GoogleCloudStorageConnectorforSparkandHadoop(GitHub上的大数据互操作)。当我尝试时,它可以正常工作,比如说,hadoopfs-lsgs://bucket-name但是当我在Pig中尝试以下操作时(在mapreduce模式下):data=LOAD'gs://softline/o365.avro'USINGAvroStorage();data=STOREdataINTO'gs://softline/o366.avr

hadoop - describe 不能在 Pig 宏中使用?

使用HadoopPig。并且想在别名上使用describe来查看其模式,我想在Pig宏中使用describe。描述问题附近有意想不到的字符。但是当我在外面移动描述时,它总是很好。想知道在Pig宏中使用describe有什么限制吗?谢谢。问候,林 最佳答案 这不是预期的功能,但它是宏实现方式的副作用。Pig实际上有几个解析器。一个解析PigLatin,另一个由shellGrunt使用。Grunt不知道PigLatin,但它知道将其传递给PigLatin解析器。PigLatin对Grunt一无所知。Describe、dump、expla

hadoop - 在 Hadoop 上的 Pig 中引用包中的元素

我有一个名为student的别名,数据结构是这样的(命令describe的结果),studentIDInt:int,courses:bag{(courseId:int,testID:int,score:int)}然后我想按分数筛选学生,但是遇到了这样的Pig解析错误,如果有人有什么好主意,那就太好了。谢谢。对错误信息中报告的附加元组感到困惑。student=filterstudentbycourses.score>3;incompatibletypesinGreaterThanOperatorlefthandside:bag:tuple(score:int)righthandscore

hadoop - 运行组命令时 Pig 减少作业卡在 50%

我使用以下命令加载了一个包含大约6000行数据的文件A=load'/home/hduser/hdfsdrive/piginput/data/airlines.dat'usingPigStorage(',')as(Airline_ID:int,Name:chararray,Alias:chararray,IATA:chararray,ICAO:chararray,Callsign:chararray,Country:chararray,Active:chararray);B=foreachairlinegenerateCountry,Airline_ID;C=groupBbyCountr

hadoop - Pig 中的替换功能如何工作?

我的输入文件名为words.txt,如下所示。此文件的每条记录中也没有空格。HiHiHow我正在将这个文件加载到Pig中words=LOAD'/user/inputs/words.txt'USINGPigStorage()AS(line:chararray);words_each=FOREACHwordsGENERATEREPLACE(line,'','|');dumpwords_each;我得到输出为|H|i||H|i||H|o|w|但我想知道REPLACE函数究竟如何处理''这是我在REPLACE函数中的第二个参数。我的文件里没有空白,那我怎么会得到|在我的输出中。

hadoop - pig : Get first occurrence of variable in a group (while aggregating other variables)?

我有一个看起来像的数据集grcol1col2A2'haha'A4'haha'A3'haha'B5'hoho'B1'hoho'如您所见,在每个组gr中都有一个数值变量col1和一些字符串变量col2每个组内相同。如何在PIG中得到如下伪代码?foreachgroupgt:generatethemeanofcol1andgetthefirstoccurrenceofcol2所以输出看起来像grmeannameA3'haha'B3'hoho'谢谢! 最佳答案 GROUPBYgr,col2并得到col1的AVG。假设字段以制表符分隔。Pig

hadoop - pig : is it possible to write a loop over variables in a list?

我必须循环列表中的30多个变量[var1,var2,...,var30]对于每个变量,我使用一些PIGgroupby语句,例如grouped=GROUPdatabyvar1;data_var1=FOREACHgrouped{GENERATEgroupasmygroup,COUNT(data)ascount;};有没有办法遍历变量列表,或者我被迫在我的代码中手动重复上面的代码30次?谢谢! 最佳答案 我认为您正在寻找的是pigmacro为您的30个变量创建一个关系,并通过foreach对它们进行迭代,并调用一个获取2个参数的宏:您的数