草庐IT

PIG_HOME

全部标签

hadoop - 在 Pig 中创建单列元组?

我正在尝试使用FOREACH..GENERATE语句生成一个关系,该关系的唯一值是一个单列元组。为了说明,我正在尝试执行以下操作:x=LOAD'data.json'USINGJsonLoader('a:chararray,b:chararray')AS(a:chararray,b:chararray);y=foreachxgenerate(a)asvalue:(a:chararray);但是,此代码会产生以下错误:Incompatablefieldschema:declaredis"value:tuple(a:chararray)",inferedis"a:chararray"将(a)

hadoop - 加入 Pig Apache 后难以创建包

我需要对我的一部分数据进行反规范化。我有一些数据donnees_porteur(JSON格式),我想在其中集成donnees_enfant(CSV格式)donnees_enfant=LOAD'/user/cloudera/enfn.csv'USINGPigStorage(';')AS(NUM_CART_enf,NUM_ENFN,ANNEES_NAIS);donnees_porteur=LOAD'/user/cloudera/part*'USINGJsonLoader();编辑:donnees_porteur:{Id:bytearray,Infos:(cod_civl:bytearray

hadoop - 计数并压扁 pig

您好,我有这样的数据:{"user_id":"kim95","type":"Book","title":"ModernDatabaseSystems:TheObjectModel,Interoperability,andBeyond.","year":"1995","publisher":"ACMPressandAddison-Wesley","authors":[{"name":"null"}],"source":"DBLP"{"user_id":"marshallo79","type":"Book","title":"Inequalities:TheoryofMajorizatio

hadoop - 处理 pig 中的刺分隔符

MySource是一个以“þ”作为分隔符的日志文件。我正在尝试在Pig中读取此文件。请查看我尝试过的选项。选项1:使用PigStorage("þ")-这行不通,因为它无法处理unicode字符。选项2:我尝试将这些行读取为字符串并尝试用“þ”拆分该行。这也行不通,因为STRSPLIT遗漏了最后一个字段,因为它最后有“\n”。我可以在网络上看到多个问题,但无法找到解决方案。请指导我这个。荆棘细节:http://www.fileformat.info/info/unicode/char/fe/index.htm 最佳答案 这是您期望的解

hadoop - 在 AWS EMR 上用 Lipstick 运行 Pig

我正在使用script-runner.jar运行AWSEMRPig作业,如下所述:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-hadoop-script.html现在,我想连接Netflix的Lipstick来监控我的脚本。我设置了服务器,并在此处的wiki中:https://github.com/Netflix/Lipstick/wiki/Getting-Started我不太清楚如何执行最后一步:hadoopjarlipstick-console-[version].jar-Dlipsti

hadoop - pig 自定义函数加载多个字符 ^^(双胡萝卜)定界符

我是PIG的新手,有人可以帮助我如何加载一个包含多个字符(在我的例子中为“^^”)作为列分隔符的文件。例如我有以下列的文件aisforapple^^bisforball^^cisforcat^^disfordoll^^andeisforelephantfisforfish^^gisforgreen^^hisforhat^^iisforicecreem^^andjisforjarkisforking^^lisforlion^^misformango^^nisfornose^^andoisfororange问候 最佳答案 正则表达式最适

hadoop - 如何将 Pig 存储位置设置为另一个 hadoop 集群

我正在通过RESTAPI运行PigScript,我想将我的Pig输出存储到另一个hadoop集群。有什么方法可以将PigStorage设置为其他一些hdfs。 最佳答案 您可以使用distcp从一个hdfs复制到另一个。distcp用于将大量数据并行复制到hadoop文件系统或从中复制。$hadoopdistcphdfs://namenode1/foohdfs://namenode2/bar 关于hadoop-如何将Pig存储位置设置为另一个hadoop集群,我们在StackOverfl

java - Apache pig UnsatisfiedLinkError

当我尝试运行一个涉及加入一个活泼的压缩avro文件内容的pig作业时,我得到了一个堆栈跟踪。org.apache.hadoop.mapred.YarnChild:运行child时出错:java.lang.UnsatisfiedLinkErrororg.xerial.snappy.SnappyNative.uncompressedLength奇怪的是,在grunt中逐行运行代码工作正常,我什至可以将avro文件的内容存储到其他东西中就好了。Thisissueseemstoberelevent,butitreferstoSparkandnotpig 最佳答案

hadoop - 如何在 Pig Latin 中生成大量数据的不同平均值?

我有一个大型出租列表数据集,我想根据卧室数量生成每个城市的平均价格。我有以下类型的行:{(city:'NewYork',num_bedrooms:1,price:1000.00),(城市:'纽约',卧室数:2,价格:2000.00),(city:'NewYork',num_bedrooms:1,price:2000.00),(城市:'芝加哥',卧室数:1,价格:4000.00),(城市:'芝加哥',卧室数:1,价格:1500.00)}使用Pig,我想获得以下格式的结果:{(city:'纽约',1:1500.00,2:2000.00),(城市:'芝加哥',1:2750.00)}或者,我也

hadoop - MIn max group wise 和 filter without join in pig

我正在尝试为每个组找到(max+min)/2。以下是我的架构UrlXpathsCount:{url:chararray,leafpathstr:chararray,urlpath_count:long}我正在尝试按url字段对其进行分组byUrl=GROUPUrlXpathsCountbyurl;我正在尝试通过以下方式找到(max+min)/2。midRangeByUrl=FOREACHbyUrl{urls_desc=orderUrlXpathsCountbyurlpath_countdesc;urls_max=limiturls_desc1;urls_asc=orderUrlXpat