草庐IT

PIG_HOME

全部标签

hadoop - 为什么我的任务不能在 Pig 中并行运行?

我正在学习hadoop,并且正在对一个可以作为大数据项目投入生产的项目进行一些实验。无论如何,目前我只是在用少量数据做一些测试。场景如下,我在pig中加载了一堆json文件,如下所示:a=load's3n://mybucket/user_*.json'usingcom.twitter.elephantbird.pig.load.JsonLoader('-nestedLoad')AS(json:map[]);b=FOREACHaGENERATEflatten(json#'user')as(m:map[]);假设文件很小,它们只包含一个对象,但其中有一大堆。我假设FOREACH可以同时并行

hadoop - 是否有一些 Pig 实时用例可用?

请提供实时Pig用例。银行业和医疗保健将有很大帮助。也很好奇Pig是否可以用作Hadoop世界中的ETL工具。 最佳答案 Pig是典型的批处理工具。但是我不确定当您要求“实时Pig用例”时,您指的是什么。ETL——基本上任何东西都可以用于ETL目的,ExtractTransformLoadpig可以做到这一点。我们在ETL的批处理工作流中使用它。 关于hadoop-是否有一些Pig实时用例可用?,我们在StackOverflow上找到一个类似的问题: http

hadoop - 使用 int 数据类型加载时 apache pig 输出空值

我正在使用pig-0.16.0我正在尝试使用pig脚本连接两个制表符分隔文件(.tsv)。一些列字段是整数类型,所以我试图将它们加载为int。但是我看到我制作的“int”列没有加载数据,它们显示为空。我的连接没有输出任何结果,所以我退后一步,发现这个问题发生在加载步骤。我在这里粘贴我的pig脚本的一部分:REGISTER/usr/local/pig/lib/piggybank.jar;--$0=streaminputs/forum_node.tsv--$1=streaminputs/forum_users.tsvu_f_n=LOAD'$file1'USINGPigStorage('\t

hadoop - 具有时间间隔的 apache pig 脚本

我想每小时对每个端口的RW列求和TimeIDNameRW----------------------------14:57:01000Port0134014:57:01001Port11314:58:01000Port086414:58:01001Port13614:59:01000Port0139414:59:01001Port12215:57:01000Port0134015:57:01001Port11315:58:01000Port086415:58:01001Port13615:59:01000Port0139415:59:01001Port122...20:57:01000

hadoop - 使用 pig 脚本对没有定界符的记录标记字段

我在原始文件中有字段C1C2C3C4(不存在分隔符),我必须生成应该类似于C1、C2、C3、C4的输出。使用PIG脚本。给定:-C1=C2=C3=C4=4字节的大小。 最佳答案 这应该通过以下步骤简单明了:按原样加载数据生成四个新列,使用SUBSTRING功能例如,您应该能够将c2提取为:SUBSTRING(inputstring,5,8) 关于hadoop-使用pig脚本对没有定界符的记录标记字段,我们在StackOverflow上找到一个类似的问题: ht

hadoop - 在 pig 中分组时如何处理倾斜数据

我正在做一组操作,其中一个reduce任务运行的时间很长。以下是示例代码片段和问题描述,inp=load'input'usingPigStorage('|')AS(f1,f2,f3,f4,f5);grp_inp=GROUPinpBY(f1,f2)parallel300;由于数据存在偏差,即一个键的值太多,一个reducer运行了4小时。其余所有reduce任务在1分钟左右完成。我能做些什么来解决这个问题,有什么替代方法吗?任何帮助将不胜感激。谢谢! 最佳答案 您可能需要检查几件事:-1>过滤掉f1和f2都为NULL的记录(如果有的话

hadoop - Pig 使用 LOAD 覆盖 hive 中的数据

我是Pig和hive的新手,我需要使用pigload-store将存储在hdfs上的csv文件中的数据加载到hive表中。我正在使用load_resource_csv=LOAD'/user/hadoop/emp.csv'USINGPigStorage(',')AS(dates:chararray,shipnode_key:chararray,delivery_method:chararray,);STOREload_resource_csvINTO'employee'USINGorg.apache.hive.hcatalog.pig.HCatStorer();我每次运行Pig脚本时都需

hadoop - 如何在cloudera集群中设置PIG_HEAPSIZE?

我有一个pig脚本,每次从Oozie运行时它都会内存不足。错误:Pig日志文件转储:Pig堆栈跟踪错误2998:未处理的内部错误。Java堆空间java.lang.OutOfMemoryError:Javaheapspaceatjava.lang.StringCoding$StringEncoder.encode(StringCoding.java:300)atjava.lang.StringCoding.encode(StringCoding.java:344)atjava.lang.StringCoding.encode(StringCoding.java:387)atjava.l

hadoop - 在 pig : 中加载文件时出错

我正在尝试在终端中执行pig脚本,但出现以下错误:INFO[Thread-13]org.apache.hadoop.util.NativeCodeLoader-Loadedthenative-hadooplibraryWARN[Thread-13]org.apache.hadoop.mapred.JobClient-Nojobjarfileset.Userclassesmaynotbefound.SeeJobConf(Class)orJobConf#setJar(String).INFO[Thread-13]org.apache.hadoop.mapred.JobClient-Clea

hadoop - 如何使用 pig 脚本从网络爬网数据中提取特定数据(nutch)

此示例使用nutch2.3.1抓取数据,其中我需要获取标题和url内部链接和网站附带的外部链接,欢迎任何建议。我用这个命令从hbase导入数据到pig`data9=load'hbase://htest15_webpage'usingorg.apache.pig.backend.hadoop.hbase.HBaseStorage('f:cnt','-loadKeytrue');`column=f:cnt,timestamp=1487743991250,value=\x0D\x0A\x0D\x0A\x0D\x0A\x0D\x0A\x0D\x0A\x0D\x0A\x0D\x0A\x0D\x0