Pig_草庐IT

hadoop - 对 PIG Latin 中的记录进行分组和计数

我是PIGLatin的新手，我正在尝试解决以下问题找出每个区号都有电话号码的员工数。EMPIDADD_IDZIPSALPHONEDATAbcd411PbcDr6026495349246404111-432-419320150113Abcd874PbcDr3935318630729873100-432-916420150728Abcd197PbcDr4672530618531908113-432-419120150410Abcd160PbcDr7773833053361313105-432-246820151007Abcd327PbcDr1003495170339301109-432-9

hadoop Latin chararray 39 code apache-pig

hadoop - Apache Pig FOREACH 是否需要 GENERATE？

我从未见过没有GENERATE的PigLatin中的FOREACH示例。是否所有FOREACH语句都需要GENERATE？最佳答案来自FOREACH的语法,GENERATEblock是FOREACH的一部分，您可以选择简单block或嵌套block。所以答案是肯定的，所有FOREACH都需要GENERATE。alias=FOREACH{gen_blk|nested_gen_blk}[ASschema]; 关于hadoop-ApachePigFOREACH是否需要GENERATE？，我

GENERATE FOREACH section hadoop apache-pig

hadoop - 如何找到 Pig 中一列的平均值和两列相减的平均值？

我不熟悉使用PigLatin编写脚本。我坚持要编写一个pig脚本，它会找到列值的平均值，还会找到两列之间相减值的平均值。我正在从具有如下开始时间和结束时间列的csv文件中读取数据:"starttime","endtime","23","46","32","49","54","59"目前我试过的代码如下:file=LOAD'/project/timestamp.csv'UsingPigStorage(',')AS(st:int,et:int);start_ts=FOREACHfileGENERATEst;grouped=groupstart_tsbystILLUSTRATEgrouped

hadoop Pig section 34 39 apache-pig bigdata

hadoop - pig 的组函数中出现 1003 错误(无法找到别名的运算符)

我写了一个.pig文件，其内容是:register/home/tuhin/Documents/PigWork/pigdata/piggybank.jar;definereplaceorg.apache.pig.piggybank.evaluation.string.REPLACE();definecsvloaderorg.apache.pig.piggybank.storage.CSVLoader();xyz=load'/pigdata/salaryTravelReport.csv'usingcsvloader();x=foreachxyzgenerate$0asname:charar

运算符 hadoop apache org java apache-pig bigdata

hadoop - 在 Talend 中实现 UDF 和 Pig Script 逻辑

我编写了一个UDF，它读取输入文件并将数据分离为字符串和整数或字符串和double。我的UDF运行良好。我还编写了一个Pig脚本以在HDFS上使用上述jar。现在我想将此代码与TalendforBigData集成。我怎样才能做到这一点。UDF中的java代码如下:packagecom.test.udf;importjava.io.IOException;importorg.apache.pig.EvalFunc;importorg.apache.pig.data.Tuple;importorg.apache.pig.data.TupleFactory;publicclassCheckD

hadoop Talend outputTuple section data apache-pig bigdata

csv - 处理 PIG 中的货币值 - pigstorage

我在HDFS中加载了2列CSV文件。第1列是型号名称，第2列是以美元为单位的价格。示例-型号:IE33，价格:52678.00美元当我运行以下脚本时，价格值全部返回为两位数的结果示例$52。ultraPrice=LOAD'/user/maria_dev/UltrasoundPrice.csv'USINGPigStorage(',')AS(Model,Price);dumpultraPrice;我所有的值(value)都在20000美元到60000美元之间。我不知道为什么它被切断了。如果我更改CSV文件并从价格值中删除$一切正常，但我知道必须有更好的方法。最

pigstorage csv section 格值 39 hadoop apache-pig

hadoop - 为什么我的任务不能在 Pig 中并行运行？

我正在学习hadoop，并且正在对一个可以作为大数据项目投入生产的项目进行一些实验。无论如何，目前我只是在用少量数据做一些测试。场景如下，我在pig中加载了一堆json文件，如下所示:a=load's3n://mybucket/user_*.json'usingcom.twitter.elephantbird.pig.load.JsonLoader('-nestedLoad')AS(json:map[]);b=FOREACHaGENERATEflatten(json#'user')as(m:map[]);假设文件很小，它们只包含一个对象，但其中有一大堆。我假设FOREACH可以同时并行

hadoop Pig section 大数 FOREACH apache-pig

hadoop - 是否有一些 Pig 实时用例可用？

请提供实时Pig用例。银行业和医疗保健将有很大帮助。也很好奇Pig是否可以用作Hadoop世界中的ETL工具。最佳答案 Pig是典型的批处理工具。但是我不确定当您要求“实时Pig用例”时，您指的是什么。ETL——基本上任何东西都可以用于ETL目的，ExtractTransformLoadpig可以做到这一点。我们在ETL的批处理工作流中使用它。关于hadoop-是否有一些Pig实时用例可用？，我们在StackOverflow上找到一个类似的问题： http

hadoop Pig section stackoverflow apache-pig

hadoop - 使用 int 数据类型加载时 apache pig 输出空值

我正在使用pig-0.16.0我正在尝试使用pig脚本连接两个制表符分隔文件(.tsv)。一些列字段是整数类型，所以我试图将它们加载为int。但是我看到我制作的“int”列没有加载数据，它们显示为空。我的连接没有输出任何结果，所以我退后一步，发现这个问题发生在加载步骤。我在这里粘贴我的pig脚本的一部分:REGISTER/usr/local/pig/lib/piggybank.jar;--$0=streaminputs/forum_node.tsv--$1=streaminputs/forum_users.tsvu_f_n=LOAD'$file1'USINGPigStorage('\t

hadoop apache 34 chararray code apache-pig

hadoop - 具有时间间隔的 apache pig 脚本

我想每小时对每个端口的RW列求和TimeIDNameRW----------------------------14:57:01000Port0134014:57:01001Port11314:58:01000Port086414:58:01001Port13614:59:01000Port0139414:59:01001Port12215:57:01000Port0134015:57:01001Port11315:58:01000Port086415:58:01001Port13615:59:01000Port0139415:59:01001Port122...20:57:01000

hadoop apache Port section Port0 apache-pig