Pig

json - 如何使用 Pig 读取非分隔的 JSON？

我有一个json文件，原始文本如下所示:{a:1,b:2,c:3}{a:3,b:3,c:5}{a:3,b:3,c:9}做raw=LOAD'jsonfile.text'USINGJsonLoader('a:chararry,b:chararray,c:chararry');dumpraw;只返回1条记录。日志的实际摘录:Input(s):Successfullyread1records(630644858bytes)from:"s3n://logstash/ls.s3.ip-10-45-56-56.2016-03-02T23.10.part42.txt"Output(s):Success

非分 json section code hadoop apache-pig

hadoop - 查找年份和编号列表。每年使用 pig 发生的事件

数据集的详细信息是:id,event,year,rating,duration1,f1,1980,3.4,42002,f2,1960,4.2,72733,f3,1980,2.1,27214,f4,1960,3.5,72125,f5,1960,2.1,7786如何找到年份和编号的列表。每年发生的事件？我已经试过了，但我不工作它显示架构错误events=load'event'usingpigstorage','as(id:int,event:chararray,year:int,rating:float,duration:int);list_of_years=groupeventsbyye

hadoop pig strong section events apache-pig

hadoop - Apache pig -错误 2229 : Couldn't find matching uid -1 for project

运行Pig脚本时出现以下异常。ERROR2229:Couldn'tfindmatchinguid-1forproject(Name:ProjectType:bytearrayUid:-1Input:0Column:12)org.apache.pig.impl.logicalLayer.FrontendException:ERROR2000:ErrorprocessingruleColumnMapKeyPrune.Try-tColumnMapKeyPruneatorg.apache.pig.newplan.optimizer.PlanOptimizer.optimize(PlanOpti

matching project apache java org hadoop apache-pig cloudera-cdh

hadoop - 使用 Pig/hive mismatch 加载到 hive 中的文件

如果将一个文件加载到配置单元表中，一个是使用Pig，另一个是使用配置单元。你如何确保两个表中的数据相同？如何从两个表中获取不匹配的记录？最佳答案它们应该相同，如果您想确定，请运行这些配置单元查询:SELECT*fromtable_pigWHERENOTEXISTS(select*fromtable_hive)和SELECT*fromtable_hiveWHERENOTEXISTS(select*fromtable_pig)如果两个查询都没有返回任何记录，那么两个表是相同的。关于ha

hive mismatch section 配置单 table hadoop apache-pig hcatalog

hadoop - 在 Pig 中读取非字符串分区的 Hive 表

我正在尝试使用Pig从Hive表中读取数据。详情如下:hive版本1.1pig0.12Hadoop2.6.0Cloudera发行版5.4.4Hive表架构:mapyyyyintmmintddintPartitionsareyyyy(int),mm(int),dd(int)pig代码:input_data=LOAD‘dbname.tablename'USINGorg.apache.hive.hcatalog.pig.HCatLoader();input_data_f=FILTERinput_dataBYyyyy==2016ANDmm==7ANDdd==19;rmfinput_data_d

hadoop Hive apache code input apache-pig cloudera-cdh hcatalog

hadoop - PIG : Unable to open iterator for alias AliasName. 标量在输出中有多于一行

我是pig的新手，正在尝试自学。我编写了一个脚本来获取从words.txt文件中读取的单词的纪元时间。这是脚本。words=LOAD'words.txt'ASword:chararray;B=FOREACHAGENERATECONCAT(CONCAT(A.word,'_'),(chararray)ToUnixTime(CurrentTime());dumpB;但问题是，如果words.txt文件只有一个单词，它会给出正确的输出。如果它有多个词，比如word1word2word3word4然后它给出了以下错误ERROR1066:UnabletoopeniteratorforaliasBj

多于 AliasName word section strong hadoop apache-pig epoch

hadoop - 将多个目录中的多个文件加载到 Pig 中

你好，我有一个目录，其中的子目录类似于a1,a2,..a8.，每个目录都有多个文件，例如bat-a1-0-0bat-a1-0-1bat-a1-1-0bat-a1-1-1...bat-a1-31-0bat-a1-31-1对于子目录a2也是类似的bat-a2-0-0bat-a2-0-1bat-a2-1-0bat-a2-1-1...bat-a2-31-0bat-a2-31-1为了不使事情复杂化，我决定做的是使用多个LOAD语句来加载每个目录，并找到一种UNION方法来获取所有内容。但我不知道如何使用ApachePigversion0.10.0-cdh4.2.1加载每个目录中的文件，因为它们似

hadoop Pig bat-a section bat apache-pig

hadoop - 为什么 "Flatten"不是 PIG 中的 UDF？

PigUDF区分大小写。但是当我将Flatten用作“FLATTEN”或“flatten”时，它正在工作。这意味着展平不是UDF。为什么？最佳答案 FLATTEN运算符在语法上看起来像一个UDF，但它实际上是一个以UDF所不能的方式改变元组和包的结构的运算符。展平未嵌套的元组和包。思路是一样的，但是对于不同类型的结构，操作和结果是不同的。对于元组，flatten用元组的字段代替元组。例如，考虑一个具有(a,(b,c))形式的元组的关系。表达式GENERATE$0,flatten($1)，将导致该元组变为(a,b,c)。对于包来说，

amp Flatten section 运算符 hadoop apache-pig

hadoop - 在 Pig 中使用带 MATCHES 的双引号

我正在尝试根据其中包含双引号的字符串模式过滤我在pig中的输入。例如，假设input.txt有field1="value1"field2="value2"field1="value1"field2="val2"Iwanttofilteroutlineswhichhasfield2="value2".So,IrunthefollowingscriptA=LOAD'input.txt'ASline:chararray;B=FILTERABYlineMATCHES'.*field2="value2".*';DUMPB;上面的代码片段抛出0条记录。如果我不给出结尾的双引号，它就可以工作B=FI

引号 MATCHES section field hadoop apache-pig

hadoop - 在 pig 中获取 AVG

我需要获得每个性别组的平均年龄...这是我的数据集:01::F::21::000102::M::31::2134503::F::22::3332304::F::18::12305::M::31::14567基本上是这样userid::gender::age::occupationid由于有多个定界符，我在stackoverflow的某个地方读到首先通过TextLoader()加载它loadUsers=LOAD'/user/cloudera/test/input/users.dat'USINGTextLoader()as(line:chararray);testusers=FOREACH

hadoop AVG testusers code section apache-pig

78 79 808182 83 84