草庐IT

PIG_HOME

全部标签

hadoop - 在 PIG 中传递一个包作为 UDF 的输入

我正在尝试将数据包(最终)作为输入传递。dumpfinal;给出:-(4,john,john,David,Banking,4,M,20-01-1994,78.65,345000,Arkansasdest1,Destination)(4,john,john,David,Banking,4,M,20-01-1994,78.65,345000,Arkanssdest2,Destination)(4,johns,johns,David,Banking,4,M,20-01-1994,78.65,345000,ArkansasSrc1,source)(4,johns,johns,David,Ban

hadoop - MAX(Count) 函数 apache pig latin

这个下面的程序我正尝试在ApachePig中按原样和非结构化数据执行它i)我有包含街道名称、城市和州的数据集:ii)按州分组iii)我在数据集中获取COUNT(*)个状态现在我的o/p将类似于statename,count===>该状态在数据集中可用的时间程序:realestate=LOADDATAusingpigstorage(',')as(street:string,citystring,statestring);A=GROUPrealestatebystate;B=FOREACHAGENERATEgroup,count(*)O/P会像CA,14washington,20现在我需要

hadoop - 如果列的值是列表的一部分,则 Pig 脚本提取行

我有一个这样的pig脚本a=load'large_file'usingPigStorage(',')b=filteraby$16='12345678'c=filteraby$16='456'd=unionb,cstoredinto'output.csv'如果我想按值列表过滤a。例如,当第16列的值位于大型值列表中时,我想提取所有行。用Pandas的话来说就是df[df['col'].isin([onemassivelist])]我使用的是pig版本0.8 最佳答案 对于Pig-0.8,在FILTER中使用多个ORb=filterab

hadoop - pig - 从远程 hbase 服务器读取/写入数据

我想通过pig脚本从hbase远程服务器读取/写入数据。我们正在使用HortonworksHDP2.5以下是场景。我们有两个集群,一个用于Hive,一个用于Hbase。我们可以访问作为Hive集群一部分的边缘节点。我们的代码(MapReduce作业和Pig脚本)将在Hive集群上执行。作为要求的一部分,我们还必须从Hbase表中读取/写入数据。我们在网上找到了一种解决方案,但它不起作用。http://grokbase.com/t/cloudera/cdh-user/137at5cg72/pig-stores-into-remote-hbase此解决方案建议在我们的pig脚本中注册hba

hadoop - Pig 脚本不适用于 MapReduce

我正在尝试使用Hadoop和ApachePig。我有一个包含一些数据的.txt文件和一个包含我的脚本的脚本.pig文件:student=LOAD'/home/srv-hadoop/data.txt'USINGPigStorage(',')as(id:int,firstname:chararray,lastname:chararray,phone:chararray,city:chararray);student_order=ORDERstudentBYfirstnameASC;Dumpstudent_order;这是我的.txt文件:001,Rajiv,Reddy,21,9848022

hadoop - 在 Pig 中过滤记录

下面是数据col1,col2,col3,col4,col5------------------------10,20,30,40,dollar20,30,40,50,dollar20,30,10,50,dollar61,62,63,64,dollar61,62,63,64,poundcol1,col2,col3将形成唯一键的组合。用例是根据col5过滤数据。对于唯一的组合键,我们需要过滤col5值为“dollar”的记录,只有相同的组合具有“pound”值。预期的输出是col1,col2,col3,col4,col5------------------------10,20,30,40

hadoop - 如何从 HDFS 运行 pig 脚本?

我正在尝试从hdfs运行pig脚本,但它显示错误,因为该文件不存在。我的hdfs目录[cloudera@quickstart~]$hdfsdfs-ls/Found11itemsdrwxrwxrwx-hdfssupergroup02016-08-1014:35/benchmarksdrwxr-xr-x-hbasesupergroup02017-08-1923:51/hbasedrwxr-xr-x-clouderasupergroup02017-07-1304:53/homedrwxr-xr-x-clouderasupergroup02017-08-2707:26/inputdrwxr-x

hadoop - 过滤命令在 Pig 中返回 0 条记录

A=LOAD'Batting.csv'USINGPigStorage(',');B=foreachAgenerate$0asid:int,$1asyear:int,$8asrun:int;C=FILTERBbyyear==1956;但是DUMPC返回0条记录。但文件中有1956年的记录。示例数据:playerID,yearID,stint,teamID,lgID,G,G_batting,AB,R,H,2B,3B,HR,RBI,SB,CS,BB,SO,IBB,HBP,SH,SF,GIDP,G_oldaardsda01,2004,1,SFN,NL,11,11,0,0,0,0,0,0,0,0

hadoop - 使用 sed 将 JAVA_HOME 环境变量添加到 hadoop-env,sh 文件

当我运行命令时:sed-i"\$aexportJAVA_HOME=c:\ProgramFiles(x86)\Java\jre1.8.0_151\bin"$HADOOP_HOME/etc/hadoop/hadoop-env.sh我得到错误:sed:can'tread/usr/share/hadoop/etc/hadoop/hadoop-env.shnosuchfileordirectory我验证了目录和文件存在。$HADOOP_HOME=/usr/share/hadoop你知道问题是什么吗?我已经搜索了StackOverflow和谷歌,但没有找到解决方案。 最

hadoop - 在 Pig 声明语句中转义括号

pig版本:0.12.0-cdh5.10.1我对使用pig还很陌生。我了解到有几种方法可以在pig中定义参数。其中之一是“声明”声明。只是想知道,我们是否可以在参数值中使用像“(”和“)”(括号)这样的字符。我试图在可能包含“(”和“)”字符的声明语句中保存几个(不同提要的变量)查找值,因此它抛出错误。我还尝试使用"\"和"\\"转义这些字符,但它似乎不起作用例如,在pig中运行以下语句:%declareDESC'Joe\\(sURL'尝试使用以下命令读取相同内容时出现以下错误:shecho$DESC错误:2018-02-2510:11:55,692[main]ERRORorg.apa