PIG_HOME

hadoop - Pig 0.11.0 在应用 DISTINCT 之前不排序

我有一些包含一些包作为字段的记录，我正在尝试合并具有其他相同字段的记录的包(我正在丢弃一些字段)。数据看起来像这样:u08u08anid{(web)}00{(GB),(US)}anu08u08anid{(ars)}00{(GB),(RU)}anu09u09anid{(web)}00{(GB)}anu09u09anid{(web)}00{(US)}anu10u10anid{(web)}00{(GB)}anu10u10anid{(ars)}00{(GB)}anu11u11anid{(web)}00{(GB)}anu11u11anid{(web)}00{(GB)}an我想获得(在丢弃不相关的

hadoop - 如何使用 Pig 脚本生成嵌套的 Avro 字段？

我是Pig新手，我的输入数据格式如下Record1:{label:int,id:long},Record2:{...}...我想要的输出是得到Record1:{data:{label:int,id:long}},Record2:{...}...我试过:result=FOREACHinputGENERATE(id,label)ASdata;但这会导致嵌套的元组结构如下所示:Record1:{data:{TUPLE_1:{label:int,id:long}}}我怎么能去掉另一个袋子“TUPLE_1”，看起来我错过了一个微不足道的设置。最佳答案

hadoop Avro 34 section code apache-pig

java - pig 服务器 log4j :ERROR Could not instantiate class [org. apache.hadoop.log.metrics.EventCounter]

我使用嵌入在Java中的Pig。我想实例化PigServer来执行一个Pig语句。我的第一句话是:PigServerpigServer=newPigSever("local")当我执行这段代码时，出现了以下错误:log4j:ERRORCouldnotinstantiateclass[org.apache.hadoop.log.metrics.EventCounter].java.lang.ClassNotFoundException:org.apache.hadoop.log.metrics.EventCounteratjava.net.URLClassLoader$1.run(URL

EventCounter instantiate java apache org hadoop apache-pig

hadoop - 如何在 Apache Pig 中加载具有参数化名称的文件

我刚开始使用Pig来分析一堆使用Hadoop的日志文件，我需要根据之前计算的输出加载不同的文件。例如，如果计算的输出是0x18e0，我需要加载一个名为0x18e0.txt的文件。如何在LOAD语句中给出参数化文件名？在python中，这样做非常简单:x=str(var)File=open(x+'.txt','r')在Pig中是否有类似的简单方法来执行此操作？我不能在命令行中输入pig-paraminput=x.txt因为在运行脚本之前我不知道x的值。我看到另一种选择是将输入文件本身指定为此处所述的参数https://wiki.apache.org/pig/ParameterSubsti

中加何在 blockquote section stackoverflow hadoop apache-pig hdfs

hadoop - 字符串连接在 pig 中不起作用

我在hcatalog中有一个表，它有3个字符串列。当我尝试连接字符串时，出现以下错误:A=LOAD'default.temp_table_tower'USINGorg.apache.hcatalog.pig.HCatLoader();B=LOAD'default.cdr_data'USINGorg.apache.hcatalog.pig.HCatLoader();c=FOREACHAGENERATECONCAT(mcc,'-',mnc)asnewCid;Couldnotresolveconcatusingimports:[,java.lang.,org.apache.pig.built

hadoop pig Maths section code mapreduce apache-pig bigdata

hadoop - 在 mapreduce 模式下运行 pig 脚本的问题

我有一个正在运行的具有6个节点(包括主节点)的hadoop(2.6.0)集群，并且想在mapreduce模式下运行一个pig(0.14.0)脚本。脚本运行没有错误，但不幸的是它似乎只在主节点上运行。在我的研究过程中，我尝试对hadoop配置文件进行一些更改，但没有成功。你能帮我弄清楚如何让pig在整个集群上工作吗？这里有一些信息:每个节点上的配置:一般:/etc/hosts127.0.0.1localhost192.168.101.3master192.168.101.4node1192.168.101.5node2192.168.101.6node3192.168.101.7node

mapreduce hadoop apache 2015 apache-pig

hadoop - DaysBetween in Pig 给出错误的 3 月份结果

我正在尝试将vertica查询转换为Pig，它基本上可以找出两个日期之间的天数。当我转换代码并尝试使用PIG中的DaysBetween函数时，它仅针对3月份提供不同的输出。PIG结果:Y=FOREACHXGENERATE(DaysBetween((datetime)ToDate('2015-04-01'),ToDate('2015-03-01')));Output:-(30)Vertica结果:SELECTJULIAN_DAY('2015-04-01')-JULIAN_DAY('2015-03-01');Output:-(31)当我检查一年中其他月份的相同内容时，我没有收到任何错误。P

DaysBetween hadoop 39 strong section apache-pig vertica

hadoop - 如何计算字母的数量，而不是使用 Pig 的单词

各位，我找到了很多关于计数词的例子，但找不到计数字母。我只是想把单词拆分成字母，然后数一数，但是我的代码是错误的。有人可以帮我弄这个吗？非常感谢。这是我的代码:A=load'./in/*.txt';B=FOREACHAGENERATEFLATTEN(TOKENIZE(LOWER((chararray)$0)))aswords;C=FOREACHBGENERATEFLATTEN(REGEX_EXTRACT_ALL(words,'([a-zA-Z])'))asletter;D=groupCbyletter;E=FOREACHDGENERATECOUNT(C),group;DUMPE;

单词 hadoop section 39 GENERATE mapreduce apache-pig

hadoop - Apache PIG - 使用百分比值对 foreach 中的分组数据进行采样

我在pig关系中有国家/地区数据，我试图根据每个地区的国家/地区数量对其进行抽样。我想从每个地区过滤10%的国家。为此，我尝试在FOREACH中使用SAMPLE，但看起来SAMPLE在FOREACH中不受支持。COUNTRY_FULL=LOAD'COUNTRY_REGION'USINGorg.apache.hive.hcatalog.pig.HCatLoader();COUNTRIES=FILTERCOUNTRY_FULLbypartition_dt=='2016-09-04';COUNTRIES_GROUPED_BY_REGION=GROUPCOUNTRIESBYregion_id;

foreach hadoop section COUNTRIES SAMPLED apache-pig

hadoop - 从 pig 中的分组数据生成二元组合

以userid,itemid格式给出我的输入数据:raw:{userid:bytearray,itemid:bytearray}dumpraw;(A,1)(A,2)(A,4)(A,5)(B,2)(B,3)(B,5)(C,1)(C,5)grpd=GROUPrawBYuserid;dumpgrpd;(A,{(A,1),(A,2),(A,4),(A,5)})(B,{(B,2),(B,3),(B,5)})(C,{(C,1),(C,5)})我想生成每个组中项目的所有组合(顺序不重要)。我最终打算对我组中的项目执行jaccard相似度。理想情况下，我会生成二元语法，然后我将输出展平为:(A,(1,

二元 hadoop section number apache-pig similarity recommendation-engine

143 144 145146147 148 149