Pig

hadoop - 当 Apache Pig 加载/存储关系时会发生什么？

我正在学习ApachePig。我也是Hadoop的新手。那么谁能告诉我当PigLOAD/STORE一个关系时会发生什么？最好详细一些，例如它将调用哪些函数以及调用顺序？这对我有很大帮助，谢谢:) 最佳答案您不应该孤立地考虑加载/存储。当您发出一系列pig命令时，它会使用Java基于MapReduceAPI构建执行计划。它使用惰性评估，一旦遇到DUMP或STORE命令，就会提交mapreduce作业。这是示例脚本:department_rows=LOAD'/apps/hive/warehouse/retail_ods.db/depa

hadoop - 错误 1066 : Unable to open iterator for alias in Pig 0. 14

我在CentOSPC上安装了Hadoop版本2.7.1和Pig0.14.0。我尝试在Gruntshell上运行Pigdump命令，但失败并出现以下错误:[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1066:Unabletoopeniteratorforalias下面是我正在运行的命令:grunt>youtube_dump=LOAD'/youtubedata.txt'as(video_id:chararray,uploader:chararray,upload_interval:int,category:chararray,video

iterator hadoop section chararray category apache-pig hadoop2

hadoop - 启动 Pig 作业时出现 oozie 错误

我正尝试从oozie启动一个pig作业，但它失败了。Oozie堆栈跟踪:java.lang.RuntimeException:java.lang.ClassNotFoundException:找不到类org.apache.oozie.action.hadoop.PigMain在org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1897)在org.apache.oozie.action.hadoop.LauncherMapper.map(LauncherMapper.java:224)在org.apache.

时出 hadoop apache java apache-pig oozie oozie-coordinator

mongodb - Pig 输出到 MongoDb - 重命名字段

我一直在编写一些代码，使用MongoDb-Hadoop连接器从pig生成数据并提供给MongoDb，它运行良好。但是，当它们存储在MongoDb集合中时，我一直在尝试重命名您可能称之为的字段名称或属性。这就是我用来将结果存储在集合中的内容。results=FOREACHallavgone::code,avgone::year,avgone::month,STOREresultsINTO'mongodb://hostname:27017/test.all'USINGcom.mongodb.hadoop.pig.MongoInsertStorage('','');这存储为"avgone::

命名 mongodb code section avgone hadoop apache-pig

hadoop - PIG - 将输入日期转换为 UTC 时区

我有一个PST格式的日期输入文件example=>2014-02-0405:46:36.0我需要使用pig语法将此日期转换为UTC。我尝试使用ToDate(input_date_column,'yyyy-MM-ddHH:mm:ss.SS','UTC')但它不起作用。Errorshown-java.lang.IllegalArgumentException:Invalidformat:""2014-02-0405:46:36.0""感谢任何帮助:) 最佳答案我真的找不到这个的构建方法所以我写了一个用户定义的函数并将它用到我的pig脚

hadoop PIG section input Timestamp timezone apache-pig utc

hadoop - pig 数据类型 : Ordered Tuple v/s Unordered Bag

引用OReilly:元组:数据元素的有序集合。Bag:元组的无序集合。我对Pig还很陌生，这可能是一个微不足道的问题，但我需要帮助来理解元组如何是元素的“有序”集合，而包不是。谢谢。最佳答案想一想最简单的示例-一个格式良好、未排序的CSV文件。当您将文件读入PIG时，每一行都是一个元组。字段的集合。每个字段都有它的位置；说“第一场”、“第三场”和“最后一场”是有道理的。但是，这些行的顺序是没有意义的。同样，包中元组的顺序是任意的，不能依赖。这里有一个有趣的概念讨论:HowdoIextractthefirsttuplefromag

Unordered Ordered section stackoverflow questions hadoop apache-pig

hadoop - 使用 Hadoop 上的 Pig 按层级根据事件频率分配用户

需要计算每个组中的用户数量，每个用户的组分配是基于他们的付款(例如，付款少于2，或介于3和5之间，或大于5)。这是我当前的代码，想知道是否有任何方法可以让它更优雅？是否可以通过一组语句来完成逻辑？谢谢。customer_group=grouppayments_feedbycustomerID;customer_payment_count=foreachcustomer_groupgeneratecustomerID,COUNT(payments_feed)aspayment_amount;tier1=filtercustomer_payment_countbypayment_amoun

hadoop tier group count apache-pig

PIG 的 Python UDF 给出错误

我有一个PythonUDF，可以将数据从十六进制转换为字符串。当我尝试在多个字段上调用UDF时，出现错误。这是我的PythonUDF。脚本是hex_to_str.py#!/usr/bin/python@outputSchema("field:chararray")defhextoStr(field):if(field!=""):returnfield.decode("hex")我正在以下面的方式调用我的pig脚本。registerfile:/home/myuser/myfolder/hex_to_str.pyusingjythonasconvert;data=LOAD'/user/

Python PIG code field chararray hadoop apache-pig user-defined-functions udf

hadoop - 如何比较 PIG 中的两个元组？

我想过滤数据集A中flight_delay_time小于某个特定值(x)的记录。但是我将从另一个pig查询中获取x的值，从x是一个元组的意义上说，它是一个元组。但是使用下面的语句会抛出一个错误:B=FILTERAbyflight_delay_time文件A中的数据是这样的；ravi,savings,avinash,2,char,33,F,22,44,12,13,33,44,22,11,10,22,26avinash,current,sandeep,3,char,44,M,33,11,10,12,33,22,39,12,23,19,35supreeth,savings,prabhash,

hadoop PIG chararray strong field mapreduce hive apache-pig hdfs

hadoop - pig - 包含多个 jar 的注册目录

我在本地模式下运行一个pig脚本，我可以注册包含jars的目录并且一切正常:register'/home/q/2/'在mapreduce模式下运行完全相同的脚本时，我收到如下错误:atorg.apache.pig.PigServer.storeEx(PigServer.java:1034)...15moreCausedby:java.io.FileNotFoundException:/var/tmp/home/q/2(Isadirectory)请问我如何在mapreduce模式下运行时注册目录？最佳答案尝试在本地或mapredu

hadoop pig section strong jar apache-pig cloudera hortonworks-data-platform

42 43 444546 47 48