Pig

hadoop - Apache pig -错误 6007 : Unable to check name

我正在尝试运行Pig教程(http://pig.apache.org/docs/r0.11.1/start.html#pig-scripts)中的基本脚本，如下所示:/*myscript.pigMyscriptissimple.ItincludesthreePigLatinstatements.*/A=LOAD'student'USINGPigStorage()AS(name:chararray,age:int,gpa:float);--loadingdataB=FOREACHAGENERATEname;--transformingdataDUMPB;--retrievingresul

hadoop - Apache Pig - 如何获取多个包之间匹配元素的数量？

我是ApachePig的新用户，我有一个问题需要解决。我正在尝试使用apachepig制作一个小型搜索引擎。这个想法很简单:我有一个文件，它是多个文档的串联(每行一个文档)。这是一个包含三个文档的示例:1,word1word4word2word12,word2word6word1word5word33,word1word3word4word5然后，我使用以下代码行为每个文档创建一个词袋:docs=LOAD'$documents'USINGPigStorage(',')AS(id:int,line:chararray);B=FOREACHdocsGENERATEline;C=FOREAC

hadoop Apache word code pre bigdata apache-pig latin

java - 尝试使用 JAVA 启动 Pig 脚本时出错

我正在尝试从JAVA启动pig脚本。这是我的代码:importjava.io.IOException;importjava.util.Properties;importorg.apache.pig.ExecType;importorg.apache.pig.PigServer;importorg.apache.pig.backend.executionengine.ExecException;publicclasspigCV{publicstaticvoidmain(Stringargs[]){PigServerpigServer;try{Propertiesprops=newProp

时出 java apache Configuration hadoop bigdata apache-pig

hadoop - Apache Pig - 是否可以序列化变量？

让我们以wordCount为例:input_lines=LOAD'/tmp/my-copy-of-all-pages-on-internet'AS(line:chararray);--Extractwordsfromeachlineandputthemintoapigbag--datatype,thenflattenthebagtogetonewordoneachrowbag_words=FOREACHinput_linesGENERATEFLATTEN(TOKENIZE(line))ASword;是否可以序列化“bag_words”变量，这样我们就不必在每次执行脚本时都重建整个包？谢

hadoop Apache section bag_words words mapreduce bigdata apache-pig

hadoop - 从 PIG JOIN 的其他关系中选择一个关系所有字段和一个或两个，如何？

A=load'$input1'usingpigStorage()AS(a,b,c,d,e)B=load'$input2'usingpigStorage()AS(a,b1,c1,d1,e1)C=JOINAbya,Bbya;D=dosomething;'D'应该是格式(a,b,c,d,e,b1)如何实现？最佳答案 D=FOREACHCGENERATEA::a..A::e,B::bASb1; 关于hadoop-从PIGJOIN的其他关系中选择一个关系所有字段和一个或两个，如何？，我们在Sta

中选 hadoop section code stackoverflow apache-pig

hadoop - Pig 和 Hive 中生成的映射器数量

我在配置单元中有一个分区表，其中每个分区将有630个gzip压缩文件，每个平均大小为100kb。如果我使用hive查询这些文件，它将生成恰好630个映射器，即一个文件对应一个映射器。现在作为一个实验，我尝试用pig读取这些文件，而pig实际上组合了这些文件并仅生成了2个映射器和操作比hive快得多。为什么pig和hive的执行方式不同？在配置单元中，我们可以类似地组合小文件来生成更少的映射器吗？最佳答案您需要指定要使用CombineHiveInputFormat:sethive.input.format=org.apache.h

中生射器 section CombineHiveInputFormat hadoop mapreduce hive apache-pig

hadoop - 如何使用 PIG 计算特定字段的每个值的出现次数？

数据集的形式为:FIELD_A--FIELD_B例子:XYZ--1XYZ--2XYZ--8ABC--4ABC--3PQR--5预期输出:XYZ-3ABC-2PQR-1 最佳答案 data=LOAD'dataset'USINGPigStorage('--');field1=FOREACHdataGENERATE$0;grouped=GROUPfield1BY$0;count=FOREACHgroupedGENERATECOUNT(field1);我不明白你为什么需要字段B，一开始就丢弃它。

hadoop PIG section code pre apache-pig

hadoop - 在 Oozie 或 pig 中运行时重命名文件夹

我对Oozie和Pig还是陌生的。谁能告诉我如何在运行时使用Oozie或Pig重命名文件夹。我有一个pig脚本，它从输入文件夹中读取数据，然后将输出写入输出文件夹。流程是使用Oozie设计的。下次我运行Oozie文件夹时，应删除Input文件夹并将Output文件夹命名为Input。谢谢。等待回应最佳答案 OozieFs(HDFS)操作可用于重命名目录。您可以引用此link在上面的链接中，您可以在workflow.xml中添加以下部分...... 关于hadoop-在Oozie或pig

中运行时 section Oozie 命名 hadoop apache-pig

hadoop - PIG脚本如何删除中间的空格？

我还在开始学习pig，所以请原谅我。问题来了。如何删除中间有空格的数据值？这是数据:2035356531262data=LOAD'sample.csv'AS(number:chararray);processed=FOREACHdataGENERATEnumber;DUMPprocessed;如何在脚本中进行编辑，以便删除5312中的空格并以整数形式返回？最佳答案这是解决方案-data=load'sample.csv'as(number:chararray);b=FOREACHdataGENERATE(LONG)REPLACE(

hadoop PIG chararray section code apache-pig

hadoop - PIG 按最近年份筛选

如何过滤只占用最近更新信息的数据？这是示例数据。数据:UnitedStatesofAmerica2000Dentistrypersonneldensity162.7UnitedStatesofAmerica2000Healthmanagement&supportworkers1237.9UnitedStatesofAmerica2000Laboratoryhealthworkers228.4UnitedStatesofAmerica1995Nursingandmidwiferypersonnel879.80005UnitedStatesofAmerica2000Nursingandmi

hadoop PIG America United States foreach filter apache-pig

50 51 525354 55 56