PIG_HOME

hadoop - 重命名 PIG 输出的部分文件

我需要在运行我的PIG作业后更改零件文件命名约定。我希望part-r-0000成为userdefinedName-r-0000。有什么可能的解决方案吗？我正在避免使用hadoop-cp和hadoop-mv命令。谢谢最佳答案此文件由Pig生成的map-reduce作业创建。所以你应该配置ApacheMap-reduce。对应的属性是mapreduce.output.basename您可以直接在pig脚本中定义任何Hadoop属性:SETmapreduce.output.basename'custom-name';

命名 hadoop section code strong mapreduce apache-pig

hadoop - 在hadoop/pig中导入日志的多级目录

我们将日志存储在S3中，我们的(Pig)查询之一将获取三种不同的日志类型。每种日志类型都位于基于类型/日期的子目录集中。例如:/logs//////lots_of_logs_for_this_hour_and_type.log*我的查询想要在给定时间内加载所有三种类型的日志。例如:type1=load's3:/logs/type1/2011/03/08'as...type2=load's3:/logs/type2/2011/03/08'as...type3=load's3:/logs/type3/2011/03/08'as...result=jointype1...,type2,etc

中导 hadoop type section code hdfs apache-pig

python - Hadoop pig latin 无法通过 python 脚本流式传输

我有一个简单的python脚本(moo.py)，我正在尝试流式传输importsys,osforlineinsys.stdin:print1;然后我尝试运行这个pig脚本DEFINECMD`pythonmoo.py`ship('moo.py');data=LOAD's3://path/to/my/data/*'AS(a:chararray,b:chararray,c:int,d:int);res=STREAMdatathroughCMD;dumpres;当我在本地运行这个pig脚本时(pig-xlocal)一切正常，但是当我在没有-xlocal的情况下运行它时，它会打印出这个错误[ma

python 流式 section blockquote hadoop apache-pig

hadoop - 在 Pig Latin 中获取 xml 值

我正在使用piglatin进行大型XML转储。我正在尝试获取piglatin中xml节点的值。该文件就像Shujaat我想获取输入Shujaat。我试过piggybankXMLLoader但它也只分隔xml标签及其值。代码是registerpiggybank.jar;A=load'username.xml'usingorg.apache.pig.piggybank.storage.XMLLoader('username')as(x:chararray);B=foreachAgeneratex;此代码还为我提供了用户名标签和值。我只需要值(value)观。知道怎么做吗？我发现了正则表达式

hadoop Latin username section code xml-parsing apache-pig

hadoop - 我在哪里可以学习使用 Pig 而无需设置 Hadoop

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭4年前。Improvethisquestion我的目标是学习Pig，以提升我的机器学习/统计分析工作简历。目前我对所有细节的Hadoop细节并不真正感兴趣(尽管我很想稍后学习它们-即使有说明也很难在我的机器上设置，我更像是一个统计人员而不是程序员)。是否有一些资源可以让我学习Pig，并且可以轻松访问它以用于实验，而不必从头开始学习Hadoop？

hadoop section class notice apache-pig

hadoop - 在 Pig 中处理 tar header

如果我在一堆*.tar.gz文件上运行Pig，PigStorage会很好地处理解压缩，但不会处理tar文件之间的标题行。有没有简单的方法来处理这个问题？还是我必须编写自己的RecordReader？这会是什么样子？最佳答案您可以使用tar即时清理header。在您的Pig脚本中，执行以下操作:--CalltotarthatreadsfromstdinandoutputstostdoutDEFINECLEANTAR`tarxvf--O`;--Now,removetarheadersfromyourdatacleaned=STREA

hadoop header section tar CLEANTAR apache-pig

hadoop - pig :FLATTEN keyword

我对在PIG中使用FLATTEN关键字有点困惑。考虑以下数据集:tuple_record:{details:(firstname:chararray,lastname:chararray,age:int,sex:chararray)}在不使用FLATTEN的情况下，我可以像这样访问一个字段(假设是名字):display_firstname=FOREACHtuple_recordGENERATEdetails.firstname;现在，使用FLATTEN关键字:flatten_record=FOREACHtuple_recordGENERATEFLATTEN(details);DESCR

FLATTEN keyword code section hadoop mapreduce apache-pig bigdata

hadoop - pig : Pulling individual fields out after a GROUP

在PigLatin中，我想从要选择的记录中提取其他字段，因为有聚合，例如MAX。我无法解释这个问题，所以这里有一个例子。假设我想获取家中最年长者的姓名:关系A是四列，(name,address,zipcode,age)B=GROUPABY(address,zipcode);#groupbytheaddress#generatetheaddress,theperson'sage,buthowdoIgrabthatperson'sname?C=FOREACHBGENERATEFLATTEN(group),MAX(age),???Name???;如何生成年龄为MAX的人的姓名？

individual Pulling code section address hadoop apache-pig

hadoop - apache pig 计数排序

我正在从pig读取一个apache日志，它计算来自ip的总连接数。A=LOAD'access.log'usingPigStorage('')as(f0:chararray,f1:chararray,f2:chararray,f3:chararray,f4:chararray,f5:chararray,f6:chararray);grp_f5=GROUPAbyf5;counts=FOREACHgrp_f5GENERATEgroup,COUNT(A);storecountsinto'/data/accesslog'usingPigStorage(',');结果:2.50.3.29,7171

hadoop apache section chararray counts mapreduce apache-pig

hadoop - Pig 和 Hadoop 连接错误

当我在mapreduce模式下运行pig时，出现了ConnectionRefused错误。详情:我已经从压缩包(pig-0.14)安装了Pig，并在bashrc中导出了类路径。我已启动并运行所有Hadoop(hadoop-2.5)守护程序(由JPS确认)。[root@localhostsbin]#jps2272Jps2130DataNode2022NameNode2073SecondaryNameNode2238NodeManager2190ResourceManager我在mapreduce模式下运行pig:[root@localhostsbin]#piggrunt>file=LOA

hadoop java apache apache-pig hadoop2

148 149 150151152 153 154