Pig

arrays - 使用 Apache Pig 从文件中读取字符串数组

我在外部存储一个Hive表，这是一个非常简单的数据结构。该表在Hive中创建为(userstring,namesarray)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'COLLECTIONITEMSTERMINATEDBY'\001'STOREDASTEXTFILE(我也尝试过其他分隔符)。在Pig中，我似乎想不出使用包或元组来加载简单数组的正确方法!这是我在没有运气的情况下尝试过的方法:users=load''usingPigStorage()AS(user:chararray,names:bag{tuple(name:chararray)})us

java - 在 PIG 中获取名称值 JSON

大家好，我刚开始做pig，我想知道JsonLoader是否能够解析json中的所有值。例如:{"food":"Tacos","person":"Alice","amount":3}我需要将“食物”作为关系存储在chararray和“Tacos”中，这是“食物”对另一个关系的值(value)。在阅读了许多教程和文档之后，我还没有找到这样做的内置方法。这是否意味着唯一的解决方案是通过UDF？非常感谢! 最佳答案我找到了使用来自twitter的外部jar的答案。register'hdfs:/udf/elephant-bird-pig-4

java JSON section 34 code hadoop apache-pig

hadoop - 想要使用 pig 聚合两个已解析 xml 文件的文件的值

第一个文件包含以下内容cl_iddateTMc_idc_val102012015-4-1501:00:00567070650102012015-4-1501:00:00567070661102012015-4-1501:00:0056707067200同样有多个cl_id，对于每个cl_id，c_id不同，c_value也不同。同样在第二个文件中cl_iddttmc_idc_val102012015-4-1501:00:0056707065300102012015-4-1501:00:005670706660102012015-4-1501:00:005670706720文件一和文件二

hadoop pig 10201 00 2015 mapreduce apache-pig hdfs

hadoop - 如何在 Pig 中使用 MapReduce Native 传递命令行参数

我正在使用NaativeMapreduce(https://wiki.apache.org/pig/NativeMapReduce)从ApachePig调用Mapreduce作业我的问题是如何像在命令行中那样传递参数。例如:如果我有一个Mapreduce类，我从命令行调用它的驱动程序并向它传递一些它在其作业配置对象中设置的参数，例如javaMRDriverargument1_value在MRDriver中publicstaticvoidmain(String[]args){JobConfjobConf=...jobconf.set("argument1",arg[0]);.....}当

何在 MapReduce section 39 code hadoop apache-pig

hadoop - 使用 PIG 将日期转换为毫秒

真的卡在这上面了!假设我有以下数据集:A|B------------------1/2/12|13:3.804:4.1|12:1.415:4.3|1/3/13观察A和B的格式通常为分钟:秒.毫秒，例如A是点击，B是响应。如果任何事件恰好在新一天的开始，有时时间格式有月/日/年的形式。我想要什么？是计算B和A之间的平均差异。我可以轻松处理m:s.ms，将它们分成两部分，分别用于A和B，然后转换为DOUBLE和执行所有需要的操作，但在引入m/d/yy时都失败了。省略它们的最简单方法，但这不是一个很好的做法。使用PIG是否有明确的方法来处理此类异常？最佳答案

毫秒 hadoop strong time 39 apache-pig cloudera

mongodb - 从 pig 写入 mongodb 时出错

我正在尝试将mongohadoop连接器与pig或流媒体一起使用，以从mongodb加载/存储数据。使用pig我有以下问题:$cat进程.pigREGISTER/usr/hdp/2.2.4.2-2/hadoop/lib/mongo-java-driver-3.0.2.jarREGISTER/usr/hdp/2.2.4.2-2/hadoop/lib/mongo-hadoop-core-1.4.0.jarREGISTER/usr/hdp/2.2.4.2-2/hadoop/lib/mongo-hadoop-pig-1.4.0.jarSETmapreduce.map.speculativefa

时出 mongodb java hadoop apache-pig

hadoop - apache pig 没有连接到 hdfs

我有Hadoop版本2.6.3和pig-0.6.0我在单节点集群中启动并运行了所有守护进程。发射pig命令后。pig只连接到file:///而不是hdfs你能告诉我如何连接hdfs吗下面是我能看到的INFO日志2016-01-1020:58:30,431[main]INFOorg.apache.pig.backend.hadoop.executionengine.HExecutionEngine-Connectingtohadoopfilesystemat:file:///2016-01-1020:58:30,650[main]INFOorg.apache.hadoop.metrics

hadoop apache java mapreduce apache-pig hadoop2

hadoop - 计算 pig 列中单词的出现次数

我有一个文件，其中的行看起来像这样。('www.example.com','FirstNameLastName','12345','Firstname','Lastname','1967-05-16','Organizationname')使用PIG，我想计算文件中相同的“组织名称”出现的次数，并以以下格式输出'CountResult','www.example.com','FirstNameLastName','Organizationname'这是我到目前为止所做的尝试，我知道我在countOccurance行遗漏了一些东西，但无法弄清楚是什么:data=LOAD'data'AS(

单词 hadoop 39 data section count apache-pig

java - 使用Cloudera快速启动vm和pig shell的Apache Pig输入路径错误

我尝试为yelp作业运行以下pig命令:--*******PIGLATINSCRIPTforYelpAssignmet******************--0.getfunctiondefinedforCSVloaderregister/usr/lib/pig/piggybank.jar;defineCSVLoaderorg.apache.pig.piggybank.storage.CSVLoader();--Thedata-fujarfilehasaCSVLoaderwithmoreoptions,likereadingmultilinerecords,--butforthisas

Cloudera Apache java hadoop path apache-pig

hadoop - Apache Pig 条件 foreach 生成

我正在尝试实现一个条件foreach生成，其中一列数据会根据输入数据发生变化。例如，我在别名A中有此数据:dumpA;(George,Films)(Martin,Books)如果名称以G开头，我想存储一个Y。来自documentation我知道有条件算术运算，但我找不到执行“以X开头”的方法。我认为它应该是这样的，其中#####是缺少的条件。B=FOREACHAGENERATE(#####?"Y":"N"); 最佳答案您正在寻找SUBSTRING函数。像这样使用它:b=foreachagenerate$0..,(SUBSTRING

foreach hadoop section code pre apache-pig cloudera

77 78 798081 82 83