草庐IT

pig4cloud

全部标签

hadoop - 从 pig 中的分组数据生成二元组合

以userid,itemid格式给出我的输入数据:raw:{userid:bytearray,itemid:bytearray}dumpraw;(A,1)(A,2)(A,4)(A,5)(B,2)(B,3)(B,5)(C,1)(C,5)grpd=GROUPrawBYuserid;dumpgrpd;(A,{(A,1),(A,2),(A,4),(A,5)})(B,{(B,2),(B,3),(B,5)})(C,{(C,1),(C,5)})我想生成每个组中项目的所有组合(顺序不重要)。我最终打算对我组中的项目执行jaccard相似度。理想情况下,我会生成二元语法,然后我将输出展平为:(A,(1,

hadoop - 在 PIG 中为 UDF 添加依赖 jar

我有一个UDF,用于对记录进行自定义处理。在eval函数中,我使用第三方jar进行处理。我看到了作业jar文件,但它不包含此依赖项。有什么办法可以在作业jar中包含依赖jar吗?(为了测试,我在本地模式下运行集群)。或者我可以使用分布式缓存使依赖的jar可用于UDF吗?我试过在pig中注册依赖的jar。对于第一个注册的jar(所有udf都捆绑在这个jar中)我没有遇到问题。但是对于第二个jar,当UDF尝试从中访问类时,我遇到了问题。REGISTER'/home/user/pig/udfrepository/projectUDF.jar'REGISTER'/home/user/thri

hadoop - 如何使用Pig在hbase中加载数据

我想通过pig加载数据并将其处理到HBase中。我已将文本文件加载到HDFS。然后我对pig使用了以下命令。A=LOAD'/tmp/hive-Vijay.Shinde/file.txt'USINGPigStorage(',')as(strdata1:chararray,strdata2:int);然后我用了,STOREAINTO'mydata'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('mycf:strdata2');mydata是HBase中的表。它给出错误:未处理的内部错误 最佳答案

hadoop - 使用 pig 更新 Hbase 表

我知道可以使用Put更新HBase中一行的不同列。我正在使用Pig+HBase和HBaseStorage。我能够在HBase中存储和加载,而不会出现表中不存在键的Pig表达式的任何问题。但是,当我开始尝试使用存在键的HBaseStorage()更新表时,作业失败了。有人可以澄清HBaseStorage是否只能用于存储新记录或更新现有记录中的列。提前致谢。 最佳答案 实际上,您可以使用HBaseStorage来更新现有记录中的列。如果您向我们提供错误消息以获取更多详细信息。 关于hadoo

hadoop - pig 分层抽样?

有没有人知道如何对pig进行分层抽样?(wikipedia)目前,我会做类似的事情:relation2=SAMPLErelation10.05;但我的数据集包含一个出现几次的标签列,其中一些很少见(例如0.5%),我希望我的随机下采样不要忘记所有这些。非常感谢。 最佳答案 您可以通过使用RANDOM()实现您自己的采样方法,然后过滤掉值低于0.95的行。因此,如果您想对此抽样进行分层,您可以计算行中有多少部分包含特定值,然后相应地缩放随机值,以便以不同的速率对不同的值进行抽样。 关于ha

hadoop - 如何使用 Pig 将数据存储在 HDFS 上的多个分区文件中

我有一个pig作业,它分析大量日志文件并生成一组属性和一组具有这些属性的ID之间的关系。我想将这种关系存储在HDFS上,但我希望以一种对其他Hive/Pig/MapReduce作业友好的方式来操作数据或数据子集,而无需摄取完整数据我的Pig作业的输出,因为这是大量数据。例如,如果我的关系模式是这样的:relation:{group:(attr1:long,attr2:chararray,attr3:chararray),ids:{(id:chararray)}}我真的很想能够对这些数据进行分区,将其存储在如下所示的文件结构中:/results/attr1/attr2/attr3/fil

hadoop - Json 在 Pig 中用 elephantbird 解析

我无法获取以下数据以在Pig中解析。这是twitterAPI在从特定用户获取所有推文后返回的内容。源数据:(我删除了一些数字以免意外侵犯任何人的隐私)[{"created_at":"SatNov0123:15:45+00002014","id":5286804225,"id_str":"5286864225","text":"@Beace_yournanmakesmelaughwithsomeofthethingsshecomesoutwith","source":"\u003cahref=\"http:\/\/twitter.com\/download\/iphone\"rel=\"

hadoop - 使用 Pig 加载 Json 数据

我正在尝试使用jsonLoader()从下面提到的json格式中提取数据:{"Partition":"10","Key":"618897","Properties2":[{"K":"A","T":"String","V":"M"},{"K":"B","T":"String","V":"N"},{"K":"D","T":"String","V":"O"}]}{"Partition":"11","Key":"618900","Properties2":[{"K":"A","T":"String","V":"W”"},{"K":"B","T":"String","V":"X"},{"K":"

hadoop - 运行 Pig 脚本时出现堆空间问题

我正在尝试执行一个包含大约3000万数据的pig脚本,但出现以下堆空间错误:>ERROR2998:Unhandledinternalerror.Javaheapspace>>java.lang.OutOfMemoryError:Javaheapspace>atjava.util.Arrays.copyOf(Arrays.java:2367)>atjava.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:130)>atjava.lang.AbstractStringBuilder.ensureCap

hadoop - pig : filtering out empty string

我正在尝试从我的数据中过滤掉NULL和空字符串data_filtered=FILTERraw_data byCOLUMN_NAMEisnotnullandCOLUMN_NAME!='';当我运行它时,出现以下错误:ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:Unexpectedcharacter' '如何解决此错误并过滤掉NULLS和空白字符串? 最佳答案 可以使用TRIM函数过滤空格data_filtered=FILTERraw_databy(COLUMN_NAMEisnotnu