PIG_FEATURE

hadoop - PIG TRIM 和 UPPER

我是Hadoop编程的新手，在pig中寻求帮助。我有来自simple.txt的数据，格式为,定界符。我有两个用例。我想对所有列执行ltrim(rtrim())并为所选字段转到UPPER。这是我的脚本:party=Load'/party_test_pig.txt'USINGPigStorage(',')AS(....);Trim_party=FOREACHUpper_partyGENERATETRIM(*);Upper_party=FOREACHpartyGENERATEUPPER(col1),UPPER(col2),UPPER(col3);Upper_party:将其变为大写后，我想查

hadoop - 在 Pig 中按组计算 1 和 0

这里如何计算每种类型的事件有多少个1和0？我在pig身上做了所有这些，第二个领域只有1和0。数据如下所示:(pageLoad,1)(pageLoad,0)(pageLoad,1)(appLaunch,1)(appLaunch,0)(otherEvent,1)(otherEvent,0)(event,1)(event,1)(event,0)(somethingelse,0)输出是这样的pageLoad1:2340:2359appLaunch1:540:111event1:3450:0或type10pageLoad21345appLaunch0123event23412谢谢大家。

hadoop Pig event event_type pageLoad hive apache-pig

hadoop - Pig 或 Hive 用于文件操作

我有一个文件组成如下:&009:6534KKll90JJKK87LLOO%(..)?.I$£.....&013:3536KKll90TTYY87LLPP%%(.9)?'&025:6655KKll88ZZYY87MMQQ%&(.9)?%%??-_'我想获取一个文件:&009:6534KKll90JJKK87LLOO%(..)?.I$£.....&013:3536KKll90TTYY87LLPP%%(.9)?'.......&025:6655KKll88ZZYY87MMQQ%&(.9)?%%??-_'.......我使用hortonworks，我想知道使用Hive还是PIG更好，我如何使用

hadoop Hive section code amp apache-pig bigdata hortonworks-data-platform

java - 如何在 Pig Latin 中将十六进制转换为十进制？

我的示例文件有一列包含四位十六进制数(7AA0)，我需要将其转换为十进制数(31392)。知道怎么做吗？我在互联网上看到了以下代码，它使用Java内置类进行反之亦然，但我不知道如何反过来做:--invoker.pigdefinehexInvokeForString('java.lang.Integer.toHexString','int');divs=load'NYSE_daily'as(exchange,symbol,date,open,high,low,close,volume,adj_close);nonnull=filterdivsbyvolumeisnotnull;inhex

十进进制 section code 39 java hadoop apache-pig

hadoop - 在没有主键的情况下使用 pig 删除重复项

我是hadoop的新手，我有一个用例，其中有3列名称、值、时间戳。数据是,逗号分隔并且是csv格式，我需要检查重复项并使用pig删除它们。我怎样才能做到这一点。最佳答案您可以使用pigDISTINCT函数来删除重复项。请引用这个link了解DISTINCT函数。正如您所说，您的数据驻留在HIVE表中，并且您想通过pig访问这些数据，您可以使用HCatLoader()通过pig访问HIVE表。HCatalog可用于外部和内部HIVE表。但是在使用这个功能之前，请确认你的集群已经配置了HCatalog。如果您使用的是Hadoop2.

hadoop pig code section CSVLoader duplicates apache-pig

hadoop - 在 Pig 中加载文件并将其转换为带分隔符的一行

我需要你的帮助来输出我在Pig中加载的文件，其中包含如下数据:AAAA,message1BBBB,message2CCCC,message3DDDD,message4我需要做的就是得到这样的输出AAAA,message1,BBBB,message2,CCCC,message3,DDDD,message4此输出我将在其他pigudf之后使用它..谢谢你的帮助最佳答案输入:AAAA,message1BBBB,message2CCCC,message3DDDD,message4pig脚本:A=LOAD'input.csv'USINGP

中加载文 message section strong hadoop apache-pig

hadoop - 在 Pig 中按两列聚合数据分组

我有这些数据，需要按两列分组，然后对其他两个字段求和。假设这四列的名称是:OS,device,view,click。我基本上想知道每个操作系统和设备的计数，它们有多少次查看以及有多少次点击。(2,3346,1,)(3,3953,1,1)(25,4840,1,1)(2,94840,1,1)(14,0526,1,1)(37,4864,1,)(2,7353,1,)这是我目前的情况Aisdata:OS,device,view,clickB=GROUPABY(OS,device);Result=FOREACHB{GENERATEgroupASOS,device,SUM(view)ASvisits

hadoop Pig device section click hive apache-pig

hadoop - pig 是否支持 NOT IN 子句？

我在PIG中使用了In子句作为emp=FILTERemployee_tableBYemployee_idIN('873','809','819','829');现在我需要使用NOTIN子句no_emp=FILTERemployee_tableBYemployee_idNOTIN('873','809','819','829');产生错误为2016-08-2913:22:46,165[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:Syntaxerror,unexpectedsymbolatornear'NOT'有没有其他方法可以

hadoop NOT 39 section employee apache-pig

hadoop - pig : CONCAT A relation OUTPUT to another RELATION

对于问题的错误措辞，我们深表歉意。我是stackoverflow的新手，也是PIG的新手，正在尝试自己进行实验。我有一个处理words.t文件和data.txt文件的场景。文字.txtword1word2word3word4数据.txt{"created_at":"18:47:31,SunSep302012","text":"RT@Joey7Barton:..giveaword1aboutwhethertheamericanswinsaRydercup.Imeansurelyhehasslightlymoreimportantmatters.#fami...","user_id":45

RELATION 34 word code hadoop apache-pig epoch

hadoop - pig 错误 : while reading the Attribute from a Relation

嗨，我正在使用下面的代码来执行订单操作，但它抛出了InvalidfieldprojectionwhereAsTheRelationHasthecolumn的错误。grunt>byts=ORDERBBYJB_DLT::job_idDESC;错误2016-09-2007:32:56,815[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1025:Invalidfieldprojection.Projectedfield[JB_DLT::job_id]doesnotexistinschema:group:tuple(JB_ASGNMNT::J

Attribute Relation JOB_ASNMNT_STS_DLT job_id DLT hadoop apache-pig hadoop2

4 5 678 9 10