您好,我正在使用Pig在HBASE中移动值。我试图在条件下执行,如果成功我将连接一个值,如果失败我将连接前一行的值。为此,我尝试了以下代码,但它无法正常工作并引发错误。代码:STOCK_A=LOAD'/user/cloudera/pat.hl7'USINGPigStorage('|');data=FILTERSTOCK_ABY($0matches'.*OBR.*'or$0matches'.*OBX.*');MSH_DATA=FOREACHdataGENERATE($0=='OBR'?CONCAT('HL','OBR',(chararray)$1):CONCAT('HL','OBR',(
各位专家好,我有这个数据集:Field_AField_BDATEJohn101-01-2016John105-01-2016Cate105-01-2016Cate401-01-2016Cate605-01-2016Perdi401-01-2016我正在尝试计算每个Field_A的计数(*)并根据字段A和日期创建排名。基本上我想返回这个:Field_ACountRankField_BJohn211John221Cate331Cate344Cate336Perdi154为此,我正在尝试使用以下代码:DATA=load'...'AS(Field_A:Int,FIELD_B:Int,DATE:
我正在努力select*fromAwhereA.IDNOTIN(selectidfromB)(insql)filtersource=FILTERsourceBYIDNOT(destination.ID)如何使用NOTIN子句或其他一些技术来使用pig清除一个表中存在的额外记录 最佳答案 是的,你可以在PIG中这样做:filtersource=FILTERsourceBYNOTIDIN(yourconditionorjoinedfield);例子:HIVE>select*fromtablewhereidNOTIN('1','2','3
我需要使用HBaseStorage从Pig加载到HBase,但我无法弄清楚如何为特定列族加载可变数量的列。(已知数量的列很简单)看起来像这样的数据:(为便于阅读而添加的空格)Id,ItemId,Count,Date1,1,2,2015-02-012,2,2,2015-02-023,1,2,2015-02-03我有一个HBase表,其中包含rowkey和一个名为Attributes的列族。所以我首先加载csv使用:A=LOAD'items.csv'USINGPigStorage(',')as(Id,ItemId,Count:chararray,CreationDate:chararray
我正在尝试将数据包(最终)作为输入传递。dumpfinal;给出:-(4,john,john,David,Banking,4,M,20-01-1994,78.65,345000,Arkansasdest1,Destination)(4,john,john,David,Banking,4,M,20-01-1994,78.65,345000,Arkanssdest2,Destination)(4,johns,johns,David,Banking,4,M,20-01-1994,78.65,345000,ArkansasSrc1,source)(4,johns,johns,David,Ban
这个下面的程序我正尝试在ApachePig中按原样和非结构化数据执行它i)我有包含街道名称、城市和州的数据集:ii)按州分组iii)我在数据集中获取COUNT(*)个状态现在我的o/p将类似于statename,count===>该状态在数据集中可用的时间程序:realestate=LOADDATAusingpigstorage(',')as(street:string,citystring,statestring);A=GROUPrealestatebystate;B=FOREACHAGENERATEgroup,count(*)O/P会像CA,14washington,20现在我需要
我有一个这样的pig脚本a=load'large_file'usingPigStorage(',')b=filteraby$16='12345678'c=filteraby$16='456'd=unionb,cstoredinto'output.csv'如果我想按值列表过滤a。例如,当第16列的值位于大型值列表中时,我想提取所有行。用Pandas的话来说就是df[df['col'].isin([onemassivelist])]我使用的是pig版本0.8 最佳答案 对于Pig-0.8,在FILTER中使用多个ORb=filterab
我想通过pig脚本从hbase远程服务器读取/写入数据。我们正在使用HortonworksHDP2.5以下是场景。我们有两个集群,一个用于Hive,一个用于Hbase。我们可以访问作为Hive集群一部分的边缘节点。我们的代码(MapReduce作业和Pig脚本)将在Hive集群上执行。作为要求的一部分,我们还必须从Hbase表中读取/写入数据。我们在网上找到了一种解决方案,但它不起作用。http://grokbase.com/t/cloudera/cdh-user/137at5cg72/pig-stores-into-remote-hbase此解决方案建议在我们的pig脚本中注册hba
我正在尝试使用Hadoop和ApachePig。我有一个包含一些数据的.txt文件和一个包含我的脚本的脚本.pig文件:student=LOAD'/home/srv-hadoop/data.txt'USINGPigStorage(',')as(id:int,firstname:chararray,lastname:chararray,phone:chararray,city:chararray);student_order=ORDERstudentBYfirstnameASC;Dumpstudent_order;这是我的.txt文件:001,Rajiv,Reddy,21,9848022
下面是数据col1,col2,col3,col4,col5------------------------10,20,30,40,dollar20,30,40,50,dollar20,30,10,50,dollar61,62,63,64,dollar61,62,63,64,poundcol1,col2,col3将形成唯一键的组合。用例是根据col5过滤数据。对于唯一的组合键,我们需要过滤col5值为“dollar”的记录,只有相同的组合具有“pound”值。预期的输出是col1,col2,col3,col4,col5------------------------10,20,30,40