草庐IT

hadoop - pig 自定义函数加载多个字符 ^^(双胡萝卜)定界符

我是PIG的新手,有人可以帮助我如何加载一个包含多个字符(在我的例子中为“^^”)作为列分隔符的文件。例如我有以下列的文件aisforapple^^bisforball^^cisforcat^^disfordoll^^andeisforelephantfisforfish^^gisforgreen^^hisforhat^^iisforicecreem^^andjisforjarkisforking^^lisforlion^^misformango^^nisfornose^^andoisfororange问候 最佳答案 正则表达式最适

hadoop - 如何将 Pig 存储位置设置为另一个 hadoop 集群

我正在通过RESTAPI运行PigScript,我想将我的Pig输出存储到另一个hadoop集群。有什么方法可以将PigStorage设置为其他一些hdfs。 最佳答案 您可以使用distcp从一个hdfs复制到另一个。distcp用于将大量数据并行复制到hadoop文件系统或从中复制。$hadoopdistcphdfs://namenode1/foohdfs://namenode2/bar 关于hadoop-如何将Pig存储位置设置为另一个hadoop集群,我们在StackOverfl

java - Apache pig UnsatisfiedLinkError

当我尝试运行一个涉及加入一个活泼的压缩avro文件内容的pig作业时,我得到了一个堆栈跟踪。org.apache.hadoop.mapred.YarnChild:运行child时出错:java.lang.UnsatisfiedLinkErrororg.xerial.snappy.SnappyNative.uncompressedLength奇怪的是,在grunt中逐行运行代码工作正常,我什至可以将avro文件的内容存储到其他东西中就好了。Thisissueseemstoberelevent,butitreferstoSparkandnotpig 最佳答案

hadoop - 如何在 Pig Latin 中生成大量数据的不同平均值?

我有一个大型出租列表数据集,我想根据卧室数量生成每个城市的平均价格。我有以下类型的行:{(city:'NewYork',num_bedrooms:1,price:1000.00),(城市:'纽约',卧室数:2,价格:2000.00),(city:'NewYork',num_bedrooms:1,price:2000.00),(城市:'芝加哥',卧室数:1,价格:4000.00),(城市:'芝加哥',卧室数:1,价格:1500.00)}使用Pig,我想获得以下格式的结果:{(city:'纽约',1:1500.00,2:2000.00),(城市:'芝加哥',1:2750.00)}或者,我也

hadoop - MIn max group wise 和 filter without join in pig

我正在尝试为每个组找到(max+min)/2。以下是我的架构UrlXpathsCount:{url:chararray,leafpathstr:chararray,urlpath_count:long}我正在尝试按url字段对其进行分组byUrl=GROUPUrlXpathsCountbyurl;我正在尝试通过以下方式找到(max+min)/2。midRangeByUrl=FOREACHbyUrl{urls_desc=orderUrlXpathsCountbyurlpath_countdesc;urls_max=limiturls_desc1;urls_asc=orderUrlXpat

python - Hadoop pig 的简单 Python UDF 问题

我写了一个非常简单的Python,这是我的UDF代码、pig代码和错误消息,有什么问题吗?谢谢。UDF(测试.py),@outputSchema("cookie:chararray")defgetSimple():return'Hello'pig代码,registertest.pyusingjythonasTestSimple;a=TestSimple.getSimple()asword;错误信息,[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:Syntaxerror,unexpectedsymbolatornear'a'提前

hadoop - 如何在 Hadoop 上的 Apache Pig 中手动构建元组

我有一个文本文件,每一行都是一个字符串,我想从文本文件中的所有字符串构造一个元组。想知道如何在Pig中实现?提前致谢,林 最佳答案 @LinMa:如果目标是将每一行都作为Tuple中的一个字段,那么我们可以使用下面的代码片段。输入:line1data....line2data....line3data....lineNdata.....pig脚本:text_data=LOAD'text_data.txt'USINGPigStorage('\n')AS(line_data:chararray);text_data_gpr_all=GR

hadoop - PIG-Hadoop - 在 PIG 中有一种方法可以使用 Regex 进行内部连接

我有2个文件(消息、key)。我想从“消息”中提取所有包含“键”中的单词的行。messages=LOAD'my-messages.txt'as(message:chararray);keys=LOAD'keys.txt'as(key:chararray);现在我知道我可以在消息和键之间进行内部连接,但这在以下情况下不起作用:message="hithere"key="hi"我正在考虑使用UDF来绕过它:DEFINEcontainsKeymy.udf.Matches("path/keys.txt");matches=FILTERmessagesBYcontainsKey(messages

hadoop - 如何在 pig 中总结2个日志文件

我有问题,求和2个日志文件。示例文件:文件-1id用户View1AAA22BBB53CCC9文件-2id用户查看地址1AAA5XXX2BBB2YYY6FFF4ZZZ我想通过id和sum(View)对两个文件求和,我希望输出:输出:iduserviewaddress1AAA7XXX2BBB7YYY我应该尝试用代码连接两个文件,但我不对两个文件求和:我的代码:inputdata=LOAD'/user/hdfs/tes/part-1'AS(id:chararray,user:chararray,view:int);inputdata2=LOAD'/user/hdfs/tes/part-2'A

hadoop - Apache pig 查询加入两个模式

例如,relation1:{a:chararray,b:chararray}(1,abc)(2,asd)relation2:{a:chararray,c:chararray}(1,2.5)(2,4.0)问题是:是否有可能得到与模式的结果关系,如下所示:例如:realtion1中的元组数为2,relation2中的元组数为2。结果关系中的元组数也应仅为2。relation3:{a:chararray,b:chararray,c:chararray}(1,abc,2.5)(2,asd,4.0)谁能帮忙解决一下。 最佳答案 joined=