草庐IT

PIG_HOME

全部标签

java - pig 类型转换/数据类型

我试图将关系转储到AVRO文件中,但出现了一个奇怪的错误:org.apache.pig.data.DataByteArraycannotbecasttojava.lang.CharSequence我不使用DataByteArray(bytearray),请参阅下面的关系描述。sensitiveSet:{rank_ID:long,name:chararray,customerId:long,VIN:chararray,birth_date:chararray,fuel_mileage:chararray,fuel_consumption:chararray}即使我进行显式转换,我也会遇到

hadoop - 在 PIG 中发送到 UDF 之前获取交叉数据的更好方法

我想使用我创建的模糊UDF,将每个人列表与所有内容数据发送到UDF进行比较。为此,我决定在发送之前使用CROSS数据。这是我的示例人员列表,101|PORAWAT102|HADI103|RIO我的内容,每个数据可能包含不止一个人,数据可能相似(由于错字):1001|case1|PORACWATVSRIOCORP1002|case2|PANIT要将数据发送到UDF,我决定在调用UDF之前使用CROSS数据,这是我的代码:REGISTERhdfs:/user/hue/myudfs.jar;--LOADperson_list=LOAD'/user/hue/data/person'USINGP

hadoop - PIG latin - DUMP 命令不显示

我只是尝试使用DUMP显示GROUPed记录的结果,但是没有显示数据,而是有很多日志数据。我只玩10条记录。详情:grunt>DUMPgrouped_records;2016-02-2117:34:24,338[main]INFOorg.apache.pig.tools.pigstats.ScriptState-Pigfeaturesusedinthescript:GROUP_BY,FILTER2016-02-2117:34:24,339[main]INFOorg.apache.pig.newplan.logical.optimizer.LogicalPlanOptimizer-{RU

hadoop - 无法在 pig 中运行转储

我正在尝试转储关系但出现以下错误。我试过start-all.sh并尝试使用hadoopnamenode-format格式化namenode。但我不明白哪里出了问题。Error:-Alreadytried9time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1000MILLISECONDS) 最佳答案 启动JobHistoryServer$HADOOP_HOME/sbin/mr-jobhistory-daemon.shstar

shell - 使用 azure 数据工厂 (ADF) 从 Pig/Hive 事件运行 shell 脚本

我正在使用AzureBlob存储,数据工厂和HDInsight集群。我有一个包含hadoop和hive相关代码的shell脚本,我正在尝试在ADF中添加/创建一个hive/Pig事件,从pig/hive的代码我正在调用一个shell脚本;作为myFile.pigsh/myFolder/myscript.sh==========================myFile.hql!/myFolder/myscript.sh在执行时,我得到Java.IO.Excption|无此文件或目录。根据异常pig/hive文件无法识别shell脚本路径;有没有人遇到过类似的问题,或者有没有人部署了p

json - Apache pig/Twitter 象鸟 Json 解析器 ClassCastException

我正在尝试使用Pig和Twitter的elephant-bird库解析一个相当简单的json文件,但它变成了一个非常痛苦的调试过程。json的结构如下:oid_id:(oid:chararray),bookmarks:{(oid_id:(oid:chararray),id:chararray,creator:chararray,position:chararray,creationdate:($ate:chararray))},lastaction:(date:chararray),settings:(preferredlanguage:chararray),userid:charar

Hadoop Pig 排序结果;找到订单位置?

我想对我的pig结果进行排序,然后能够确定某些项目在我的排序结果中的位置。示例:mydata=LOAD'mydata.txt'AS(label:chararray,rank_score:float);ranked_data=ORDERmydataBYrank_scoreDESC;ranked_positions=FOREACHranked_dataGENERATElabel,AUTO_INCREMENT_ID;results=FILTERranked_dataBYlabel='item1'ORlabel='item2';DUMPresults;AUTO_INCREMENT_ID在我的完

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个?

我正在从事一个NLP项目,该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce,我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败,我必须手动删除输出文件夹,调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑,我不想一次又一次地重复这些步骤。[

java - 如何在 pig 文件中使用 .jar

我有两个输入文件smt.txt和smo.txt。jar文件读取文本文件并根据java文件中描述的一些规则拆分数据。pig文件通过mapreduce将这些数据放入输出文件。register'maprfs:///user/username/fl.jar';DEFINEFixedLoaderfl();mt=load'maprfs:///user/username/smt.txt'usingFixedLoader('-30','30-33',...........)AS(.........);mo=load'maprfs:///user/username/smo.txt*'usingFixed

hadoop - PIG UDF 处理拆分成不同映射器的多行元组

我有一个文件,其中每个元组跨越多行,例如:STARTname:Jimphone:2128789283address:562ndstreet,NewYork,USAENDSTARTname:Tomphone:6308789283address:565thstreet,Chicago,13611,USAEND...以上是我文件中的2个元组。我编写了定义getNext()函数的UDF,该函数检查它是否开始,然后我将初始化我的元组;如果是END那么我将返回元组(来自字符串缓冲区);否则我只会将字符串添加到字符串缓冲区。它适用于小于HDFSblock大小64MB(在AmazonEMR上)的文件大