Pig_草庐IT

hadoop - pig 自定义函数加载多个字符 ^^(双胡萝卜)定界符

我是PIG的新手，有人可以帮助我如何加载一个包含多个字符(在我的例子中为“^^”)作为列分隔符的文件。例如我有以下列的文件aisforapple^^bisforball^^cisforcat^^disfordoll^^andeisforelephantfisforfish^^gisforgreen^^hisforhat^^iisforicecreem^^andjisforjarkisforking^^lisforlion^^misformango^^nisfornose^^andoisfororange问候最佳答案正则表达式最适

自定 hadoop section character characters load apache-pig

hadoop - 如何将 Pig 存储位置设置为另一个 hadoop 集群

我正在通过RESTAPI运行PigScript，我想将我的Pig输出存储到另一个hadoop集群。有什么方法可以将PigStorage设置为其他一些hdfs。最佳答案您可以使用distcp从一个hdfs复制到另一个。distcp用于将大量数据并行复制到hadoop文件系统或从中复制。$hadoopdistcphdfs://namenode1/foohdfs://namenode2/bar 关于hadoop-如何将Pig存储位置设置为另一个hadoop集群，我们在StackOverfl

hadoop Pig section code location apache-pig

java - Apache pig UnsatisfiedLinkError

当我尝试运行一个涉及加入一个活泼的压缩avro文件内容的pig作业时，我得到了一个堆栈跟踪。org.apache.hadoop.mapred.YarnChild:运行child时出错:java.lang.UnsatisfiedLinkErrororg.xerial.snappy.SnappyNative.uncompressedLength奇怪的是，在grunt中逐行运行代码工作正常，我什至可以将avro文件的内容存储到其他东西中就好了。Thisissueseemstoberelevent,butitreferstoSparkandnotpig 最佳答案

UnsatisfiedLinkError Apache section noreferrer https java hadoop apache-pig

hadoop - 如何在 Pig Latin 中生成大量数据的不同平均值？

我有一个大型出租列表数据集，我想根据卧室数量生成每个城市的平均价格。我有以下类型的行:{(city:'NewYork',num_bedrooms:1,price:1000.00),(城市:'纽约'，卧室数:2，价格:2000.00)，(city:'NewYork',num_bedrooms:1,price:2000.00),(城市:'芝加哥'，卧室数:1，价格:4000.00)，(城市:'芝加哥'，卧室数:1，价格:1500.00)}使用Pig，我想获得以下格式的结果:{(city:'纽约',1:1500.00,2:2000.00),(城市:'芝加哥'，1:2750.00)}或者，我也

中生何在 num_bedrooms rental strong hadoop cassandra apache-pig

hadoop - MIn max group wise 和 filter without join in pig

我正在尝试为每个组找到(max+min)/2。以下是我的架构UrlXpathsCount:{url:chararray,leafpathstr:chararray,urlpath_count:long}我正在尝试按url字段对其进行分组byUrl=GROUPUrlXpathsCountbyurl;我正在尝试通过以下方式找到(max+min)/2。midRangeByUrl=FOREACHbyUrl{urls_desc=orderUrlXpathsCountbyurlpath_countdesc;urls_max=limiturls_desc1;urls_asc=orderUrlXpat

without hadoop code urlpath_count UrlXpathsCount apache-pig hadoop2

python - Hadoop pig 的简单 Python UDF 问题

我写了一个非常简单的Python，这是我的UDF代码、pig代码和错误消息，有什么问题吗？谢谢。UDF(测试.py)，@outputSchema("cookie:chararray")defgetSimple():return'Hello'pig代码，registertest.pyusingjythonasTestSimple;a=TestSimple.getSimple()asword;错误信息，[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:Syntaxerror,unexpectedsymbolatornear'a'提前

python Hadoop section code pre apache-pig udf

hadoop - 如何在 Hadoop 上的 Apache Pig 中手动构建元组

我有一个文本文件，每一行都是一个字符串，我想从文本文件中的所有字符串构造一个元组。想知道如何在Pig中实现？提前致谢，林最佳答案 @LinMa:如果目标是将每一行都作为Tuple中的一个字段，那么我们可以使用下面的代码片段。输入:line1data....line2data....line3data....lineNdata.....pig脚本:text_data=LOAD'text_data.txt'USINGPigStorage('\n')AS(line_data:chararray);text_data_gpr_all=GR

何在 hadoop data strong section apache-pig

hadoop - PIG-Hadoop - 在 PIG 中有一种方法可以使用 Regex 进行内部连接

我有2个文件(消息、key)。我想从“消息”中提取所有包含“键”中的单词的行。messages=LOAD'my-messages.txt'as(message:chararray);keys=LOAD'keys.txt'as(key:chararray);现在我知道我可以在消息和键之间进行内部连接，但这在以下情况下不起作用:message="hithere"key="hi"我正在考虑使用UDF来绕过它:DEFINEcontainsKeymy.udf.Matches("path/keys.txt");matches=FILTERmessagesBYcontainsKey(messages

PIG-Hadoop PIG strong code messages hadoop apache-pig

hadoop - 如何在 pig 中总结2个日志文件

我有问题，求和2个日志文件。示例文件:文件-1id用户View1AAA22BBB53CCC9文件-2id用户查看地址1AAA5XXX2BBB2YYY6FFF4ZZZ我想通过id和sum(View)对两个文件求和，我希望输出:输出:iduserviewaddress1AAA7XXX2BBB7YYY我应该尝试用代码连接两个文件，但我不对两个文件求和:我的代码:inputdata=LOAD'/user/hdfs/tes/part-1'AS(id:chararray,user:chararray,view:int);inputdata2=LOAD'/user/hdfs/tes/part-2'A

何在 hadoop chararray inputdata 求和 sum apache-pig

hadoop - Apache pig 查询加入两个模式

例如，relation1:{a:chararray,b:chararray}(1,abc)(2,asd)relation2:{a:chararray,c:chararray}(1,2.5)(2,4.0)问题是:是否有可能得到与模式的结果关系，如下所示:例如:realtion1中的元组数为2，relation2中的元组数为2。结果关系中的元组数也应仅为2。relation3:{a:chararray,b:chararray,c:chararray}(1,abc,2.5)(2,asd,4.0)谁能帮忙解决一下。最佳答案 joined=

hadoop Apache chararray relation section apache-pig