Pig_草庐IT

hadoop - 在 PIG 中读取带有模式的文件

我有一个场景，我使用HCatStorer从一个目录加载40个具有不同模式的文件到Hive表。Directory:opt/inputfolder/InputFilesPattern:inp1*.log,inp2*.log,.....inp39*.log,inp40*.log.我写了一个pig脚本，它读取所有具有40种模式的文件。但我的问题是，这40个文件是强制性的，我可能无法收到某些文件。在这种情况下，我会收到一个异常说明:Causedby:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:InputPatternop

hadoop - 用 Pig 写 SequenceFile 失败

我想将一些Pig变量存储到HadoopSequenceFile，以便运行外部MapReduce作业。假设我的数据具有(chararray,int)模式:(hello,1)(test,2)(example,3)我写了这个存储函数:importjava.io.IOException;importjava.util.logging.Level;importjava.util.logging.Logger;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.

SequenceFile hadoop apache import apache-pig

hadoop - 使用 Pig 加载默认转储文件

这是PigStorage()需要用来为以下查询加载文件INSERTOVERWRITEDIRECTORY'doop'selecta.*fromcdr.cell_tower_info上面查询的输出是这样的哈里亚纳邦安巴拉40420803759176.7674630.373488404-20-80-37591哈里亚纳邦安巴拉40420803002176.7674630.373488404-20-80-30021哈里亚纳邦安巴拉邦40420803759176.7674630.373488404-20-80-37591我正在使用CDR分析，首先我需要使用select从表中检索一些字段并将其保存到

hadoop Pig 哈里亚纳 section 安巴 hive apache-pig

date - 如何使用 pig 将 UTC 时间转换为 IST

我有一个机器数据进入hdfs，如下所示，第8个字段是UTC时间(060037)，我需要将其转换为IST并使用pig将时间格式设置为hh:mm:ssVTS,01,0097,9739965515,NM,GP,20,060037,V,0000.0000,N,00000.0000,E,0.0,0.0,061114,0068,00,4000,00,999,149,9594VTS,01,0097,9739965515,SP,GP,33,060113,V,0000.0000,N,00000.0000,E,0.0,0.0,061114,0068,00,4000,00,999,152,B927使用字符串

date UTC CONCAT 39 code hadoop apache-pig

hadoop - 通过色调传递 pig 参数(多查询)

我正在从HUE运行一个pig作业。在我现在的项目中，我需要运行pigpig-no_multiquery在使用Hue时我应该在哪里(以及如何)传递它？我无法使用多查询运行此作业。或者，有没有办法切换多查询？最佳答案我看起来不够努力。SETopt.multiqueryfalse;在pig脚本中，它本身似乎正在按预期运行我的工作。关于hadoop-通过色调传递pig参数(多查询)，我们在StackOverflow上找到一个类似的问题： https://stac

传递 hadoop section code pig apache-pig hue

hadoop - Pig 中的 SimpleTextLoader UDF

我想为PigUDF创建一个自定义加载函数，我已经使用链接创建了一个SimpleTextLoaderhttps://pig.apache.org/docs/r0.11.0/udf.html，我已经成功地为此代码生成了jar文件，在pig中注册并运行Pig脚本。我得到的是空输出。我不知道如何解决这个问题，我们将不胜感激。下面是我的Java代码publicclassSimpleTextLoaderextendsLoadFunc{protectedRecordReaderin=null;privatebytefieldDel='\t';privateArrayListmProtoTuple=n

SimpleTextLoader hadoop delimiter mProtoTuple mapreduce apache-pig

hadoop - 在 Apache Pig 中运行 UDF

我在尝试使用Pig从Grunt调用Java函数时束手无策。我是Hadoop的新手，几年来我没有使用过Linux或Java(我是一个.Net女孩)。我已经从PiggyBank.jar中获得了可用的功能，这是提供的。我在Eclipse中编写了一个简单的测试类，并将jar文件导出到我的Grunt根文件夹。我按以下顺序运行这些命令并收到以下错误。grunt>RegisterKellyProject1.jargrunt>grades=load'grades.txt'as(studentName:charArray,);grunt>grades2=foreachgradesgeneratestud

中运 hadoop studentName grades section apache-pig

hadoop - 如何在hadoop pig中执行-fs

我想将输出文件从hdfs获取到我的本地存储，所以我在我的pig脚本中运行了这段代码Fs-getuser/miner/adhoc/results/mine1.txt/home/miner/jeweler/results不幸的是，执行代码返回error2997:encounteredioexception我还看到找不到默认启动文件/var/lib/hadoop-yarn/.pigbootup我是否需要导入某些内容或是否需要在我的pig脚本中设置某些属性？最佳答案看来您的路径不正确，这会导致IOException。您的路径中缺少根斜杠

hadoop 何在 section code results apache-pig hadoop2

hadoop - SQL-HIVE-PIG-Mapreduce

每行有5列，这5列通常用逗号分隔1columnisname2ndcolumnisdate_of_purchase3rdcolumnisproduct4thcolumnismodeofpayment5thcolumnistotal_amount希望你明白它包含什么数据surender,2014-03-09,TV,OFFLINE,20000surender,2014-01-01,Mobile,ONLINE,18000Raja,2014-09-21,Laptop,ONLINE,30000Surender,2014-10-12,Laptop,ONLINE,40000Raja,2014-FEB-

SQL-HIVE-PIG-Mapreduce Mapreduce ONLINE section code hadoop hive apache-pig hadoop-streaming

hadoop - Jython 在 Pig 的 UDF 上下文中的局限性

如果有人能在Pig中的UDF上下文中解释Jython的局限性，那就太好了。以下是关键问题:能否在Hadoop1.x和YARN中运行？它支持Python3.4吗？来自pythonUDFversionwithJython/Pig，我想这不太可能，但该职位已有一年多了。在支持的模块方面是否有任何限制？基本上我是想看看使用Jython是否有意义(最好是在Python3中)谢谢! 最佳答案 Here是来自常见问题解答的链接。我无法回答有关Hadoop或yarn的问题。Jython不支持Python3，最新版本支持python2.7.0。pyt

局限性文中 section Jython python hadoop apache-pig user-defined-functions