Pig-Latin

hadoop - 在 Pig Latin 中获取 xml 值

我正在使用piglatin进行大型XML转储。我正在尝试获取piglatin中xml节点的值。该文件就像Shujaat我想获取输入Shujaat。我试过piggybankXMLLoader但它也只分隔xml标签及其值。代码是registerpiggybank.jar;A=load'username.xml'usingorg.apache.pig.piggybank.storage.XMLLoader('username')as(x:chararray);B=foreachAgeneratex;此代码还为我提供了用户名标签和值。我只需要值(value)观。知道怎么做吗？我发现了正则表达式

hadoop - 我在哪里可以学习使用 Pig 而无需设置 Hadoop

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭4年前。Improvethisquestion我的目标是学习Pig，以提升我的机器学习/统计分析工作简历。目前我对所有细节的Hadoop细节并不真正感兴趣(尽管我很想稍后学习它们-即使有说明也很难在我的机器上设置，我更像是一个统计人员而不是程序员)。是否有一些资源可以让我学习Pig，并且可以轻松访问它以用于实验，而不必从头开始学习Hadoop？

hadoop section class notice apache-pig

hadoop - 在 Pig 中处理 tar header

如果我在一堆*.tar.gz文件上运行Pig，PigStorage会很好地处理解压缩，但不会处理tar文件之间的标题行。有没有简单的方法来处理这个问题？还是我必须编写自己的RecordReader？这会是什么样子？最佳答案您可以使用tar即时清理header。在您的Pig脚本中，执行以下操作:--CalltotarthatreadsfromstdinandoutputstostdoutDEFINECLEANTAR`tarxvf--O`;--Now,removetarheadersfromyourdatacleaned=STREA

hadoop header section tar CLEANTAR apache-pig

hadoop - pig :FLATTEN keyword

我对在PIG中使用FLATTEN关键字有点困惑。考虑以下数据集:tuple_record:{details:(firstname:chararray,lastname:chararray,age:int,sex:chararray)}在不使用FLATTEN的情况下，我可以像这样访问一个字段(假设是名字):display_firstname=FOREACHtuple_recordGENERATEdetails.firstname;现在，使用FLATTEN关键字:flatten_record=FOREACHtuple_recordGENERATEFLATTEN(details);DESCR

FLATTEN keyword code section hadoop mapreduce apache-pig bigdata

hadoop - pig : Pulling individual fields out after a GROUP

在PigLatin中，我想从要选择的记录中提取其他字段，因为有聚合，例如MAX。我无法解释这个问题，所以这里有一个例子。假设我想获取家中最年长者的姓名:关系A是四列，(name,address,zipcode,age)B=GROUPABY(address,zipcode);#groupbytheaddress#generatetheaddress,theperson'sage,buthowdoIgrabthatperson'sname?C=FOREACHBGENERATEFLATTEN(group),MAX(age),???Name???;如何生成年龄为MAX的人的姓名？

individual Pulling code section address hadoop apache-pig

hadoop - apache pig 计数排序

我正在从pig读取一个apache日志，它计算来自ip的总连接数。A=LOAD'access.log'usingPigStorage('')as(f0:chararray,f1:chararray,f2:chararray,f3:chararray,f4:chararray,f5:chararray,f6:chararray);grp_f5=GROUPAbyf5;counts=FOREACHgrp_f5GENERATEgroup,COUNT(A);storecountsinto'/data/accesslog'usingPigStorage(',');结果:2.50.3.29,7171

hadoop apache section chararray counts mapreduce apache-pig

hadoop - Pig 和 Hadoop 连接错误

当我在mapreduce模式下运行pig时，出现了ConnectionRefused错误。详情:我已经从压缩包(pig-0.14)安装了Pig，并在bashrc中导出了类路径。我已启动并运行所有Hadoop(hadoop-2.5)守护程序(由JPS确认)。[root@localhostsbin]#jps2272Jps2130DataNode2022NameNode2073SecondaryNameNode2238NodeManager2190ResourceManager我在mapreduce模式下运行pig:[root@localhostsbin]#piggrunt>file=LOA

hadoop java apache apache-pig hadoop2

hadoop - 如何向 apache pig 中的现有表添加列

我已经有一个使用Pig创建的表。现在我想在每一行(记录)中添加一个随机数，以给我一个包含此添加列的新表。这可能吗？如何实现？最佳答案您可以使用RANDOM用于此目的的UDF。例如:A=...B=foreachAgenerate(int)(RANDOM()*100.0)asrnd,[otherfields...] 关于hadoop-如何向apachepig中的现有表添加列，我们在StackOverflow上找到一个类似的问题： https://stackov

hadoop apache section stackoverflow noreferrer apache-pig

hadoop - 在 Pig 中合并元组

我有两组元组，我想通过第一个元素将它们内部连接并将其他部分合并到一个元组中，想知道如何在Hadoop上的Pig中实现它？输入两个元组集，1,(1,2)2,(2,3)1,(b,c,b,c)2,(c,d,c,d)预期输出，1,(1,2,b,c,b,c)2,(2,3,c,d,c,d)提前致谢，林最佳答案一个值得深思的想法......输入:数据A:1(1,2)2(2,3)数据B:1(b,c,b,c)2(c,d,c,d)pig脚本:A=LOAD'dataA'USINGPigStorage('\t')AS(aid:long,atuple:t

hadoop Pig strong chararray code apache-pig

sql - Apache Pig 中是否有等同于多个 COUNT(DISTINCT CASE WHEN ...) 语句的语句？

我是ApachePig的新手，正在尝试学习。ApachePig中是否有等效于SQL的COUNT(DISTINCTCASEWHEN...)？例如，我正在尝试做这样的事情:CREATETABLEemail_profileASSELECTuser_id,COUNT(DISTINCTCASEWHENemail_code='C'THENmessage_idELSENULLEND)ASclickthroughs,COUNT(DISTINCTCASEWHENemail_code='O'THENmessage_idELSENULLEND)ASopened_messages,COUNT(DISTINCT

同于 DISTINCT code email message sql hadoop case apache-pig

111 112 113114115 116 117