草庐IT

PIG_FEATURE

全部标签

hadoop - Apache pig : Can we convert a custom Writable object to Pig format?

我们有一个自定义可写值对象的SequenceFile,该对象本质上等同于Pig中的复杂包数据类型。有没有一种方便的方法,我们可以编写自定义函数将hadoopWritable对象转换为bag数据类型,然后使用pig脚本对其进行处理? 最佳答案 一种选择是查看elephant-bird-如果你向下滚动这个github页面到README部分,它有一个关于Pig的部分:PigIncludesconverterinterfaceforturningTuplesintoWritablesandviceversa我从来没有用过它,我想你必须自己实

hadoop - pig : How to load the output of an hdfs ls into an alias?

我正在尝试查看我的hdfs中的文件并评估哪些文件早于特定日期。我想执行一个hdfsls并将它的输出传递给一个pigLOAD命令。在对HowCanILoadEveryFileInaFolderUsingPIG?的回答中@DonaldMiner包含一个输出文件名的shell脚本;我借用它来传递文件名列表。但是,我不想加载文件的内容,我只想加载ls命令的输出并将文件名视为文本。这是myfirstscript.pig:test=LOAD'$files'as(moddate:chararray,modtime:chararray,filename:chararray);illustratetes

hadoop - Pig - 如何迭代一袋 map

让我解释一下这个问题。我有这行代码:u=FOREACHpersonsGENERATEFLATTEN($0#'experiences')asj;dumpu;产生这个输出:([id#1,date_begin#122012,description#blabla,date_end#042013],[id#2,date_begin#022011,description#blabla2,date_end#042013])([id#1,date_begin#122011,description#blabla3,date_end#042012],[id#2,date_begin#022010,desc

hadoop - Pig 中 GROUP BY 中的条件过滤器

我有以下数据集,如果它们具有相同的键,我需要将其中的多行合并为一行。同时,我需要在分组的多个元组中进行选择。1N11101N12152N11103N11103N12154N21105N31105N3220例如A=LOAD'data.txt'AS(f1:int,f2:chararray,f3:int,f4:int);G=GROUPABY(f1,f2);DUMPG;((1,N1),{(1,N1,1,10),(1,N1,2,15)})((2,N1),{(2,N1,1,10)})((3,N1),{(3,N1,1,10),(3,N1,2,15)})((4,N2),{(4,N2,1,10)})((

hadoop - pig 根据另一列中的值添加列

我在元组中有一列名为avg_rating。我想根据avg_rating中的值创建一个新列NPS。这是avg_rating数据的样子avg_rating348910所以如果评分>=8那么Pr如果评级评级介于4和8NPS之间,则为P如果评分这是我正在尝试的,yy=FOREACHavg_ratingGENERATEavg_rating,((int)wtr>=8?'P':(int)wtr>=4&&(int)wtr我在车工运算符(operator)中使用多个条件,但出现错误Syntaxerror,unexpectedsymbolatornear'('知道这有什么问题吗?

hadoop - pig : Container is running beyond physical memory limits in cdh 5 using oozie

我正在尝试运行一个简单的pig脚本,该脚本在gruntshell中运行f9但不使用oozie,出现如下错误:容器[pid=2617,containerID=container_1438923434512_12103_01_000002]正在超出物理内存限制运行。当前使用情况:已使用1.0GB的1GB物理内存;使用了2.9GB的2.1GB虚拟内存。杀死容器。container_1438923434512_12103_01_000002..的进程树转储..实际上我正在通过oozie调用一个shell脚本,实习生调用pig脚本并得到这样的错误。我怎样才能让它在oozie中可用

hadoop - 如何在 Hadoop 上的 Apache Pig 中基于两个子包构建一个 super 包

假设我有两个包,B1和B2,想知道如何制作一个包含这两个包的super包?我想要一个包含两个子包的super包的目的是因为我想调用datafu的UDFSetDifference,这似乎是在一个包含两个包的关系上调用的?就我而言,我已经有两个包,B1和B2。我想我需要在这个示例中组装一个super包“输入”。http://datafu.incubator.apache.org/docs/datafu/guide/set-operations.htmldifferenced=FOREACHinput{--inputbagsmustbesortedsorted_b1=ORDERB1byval

hadoop - 如何解决以下 apache pig 错误?

我正在执行以下命令:A=load'user/cloudera'usingPigStorage(':');foreachAgenerate$0,$4,$5;dumpB;在执行最后一条命令时,我收到以下错误,我无法解决。作为大数据和apachehadoop堆栈的新手,我无法理解这个错误。请尽快提供帮助。也在StackOverflow上搜索类似的错误没有帮助:2015-11-1306:36:46,170[main]INFOorg.apache.pig.tools.pigstats.ScriptState-Pigfeaturesusedinthescript:UNKNOWN2015-11-13

hadoop - 不使用 Pig 脚本从 HDFS 加载 HBase 中的数据

我在HDFS中有.csv文件。我想在不使用Pig脚本的情况下将它们加载到HBASE表中。还有其他方法吗? 最佳答案 可能有几种方法。但有些选项如下所示。选项1:简单的方法是ImportTsvImportTsv是一个将TSV格式的数据加载到HBase的实用程序。它有两种不同的用法:通过Puts将数据从HDFS中的TSV格式加载到HBase,以及通过completebulkload准备要加载的StoreFiles。通过Put加载数据(即非批量加载):$bin/hbaseorg.apache.hadoop.hbase.mapreduce.

hadoop - 在 PIG 中读取 delemeter 数据中的文件

我想使用PIG读取CSV文件,我应该怎么做?。我使用了loadnpigstorage(',')但它无法正确读取CSV文件,因为它在数据中遇到逗号(,)时将其拆分。如果我在数据中也有逗号,我现在应该如何给出定界符? 最佳答案 通常无法区分数据中的逗号和作为分隔符的逗号。您需要转义“数据”中的逗号和可以识别转义逗号的自定义加载函数(对于Pig)。看这里:http://ofps.oreilly.com/titles/9781449302641/load_and_store_funcs.htmlhttp://pig.apache.org/d