草庐IT

PIG_HOME

全部标签

hadoop - Pig - 解析 XML 文件

我想在pig中解析这样的XML文件:person1blablablablablablaperson2blablablablablablablablabla我已经写了一个JAVA程序,它产生了这个输出:第一个文件,其中包含人名与其ID之间的映射:1,person12,person2然后我可以使用这个pig命令将文件加载到一个变量中:A=load'...'AS(id_person:int,name:chararray);第二个文件,用于映射人员及其经历1,1,blablabla1,2,blablabla2,1,blablabla2,2,blablabla2,3,blablabla我以这种方

hadoop - 如何在 Pig 中跟踪文件组合过程

当我运行加载大量小文件的Pig作业时,它会在此步骤中暂停很长时间:2013-07-1516:44:00,464[JobControl]INFOorg.apache.hadoop.mapreduce.lib.input.FileInputFormat-Totalinputpathstoprocess:42772013-07-1516:44:00,465[JobControl]INFOorg.apache.pig.backend.hadoop.executionengine.util.MapRedUtil-Totalinputpathstoprocess:42772013-07-1516:

optimization - 优化 Pig 请求

我想在嵌入式java程序中执行pig命令。目前,我在本地模式下尝试Pig。我的数据文件大小约为15MB,但此命令的执行时间很长,所以我认为我的脚本需要优化...我的脚本:A=LOAD'data'USINGPigPrismeLoader('data.xml');filter_response_time_less_than_1_s=FILTERABY(response_time=1000.0ANDresponse_time=2000.0);star__zne_asfo_access_log=FOREACH(COGROUPABY(date_day,url,date_minute,ret_co

hadoop - PIG - HBASE - HBaseStorage key 过滤器(gt,lt)

在PIG脚本中,我使用HBaseStorage从HBase表加载所有行。但是,我想通过行键过滤行。我查看了源代码,我可以通过构造函数发送-gt&-lt。但是,我不知道如何将我的值传递给构造函数。它是一个字节[]...这里是我所在的地方:LOAD'hbase://TABLE'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('CF:I','-casterHBaseBinaryConverter')AS(product_id:bytearray);如果可能,请提供示例代码... 最佳答案

hadoop - 在对多行数据集使用 Pig 时对相似值执行计数

我是PIG的新手,正在尝试解决多行输入(网站)的字数统计(网站)问题。例如我的输入数据集有值输入数据Emailwebsitese1web1web2web3web1....e2web2web3web2web2web4...e3web1web2web1web4.....我想要的输出将是Emailwebsitese1web1(2)web2(1)web3(1)....e2web2(3)web3(1)web4(1)...e3web1(2)web2(1)web4(1).....在我的数据集中,我有将近50000个电子邮件ID(用户) 最佳答案

hadoop - 无法使用 cygwin 为 hadoop 设置 JAVA_HOME

我正在尝试在hadoop的env.sh中设置JAVA_HOME。我在Windows7上使用cygwin。我已将env.sh编辑为:exportJAVA_HOME="/cygdrive/C/ProgramFiles/Java/jdk1.6.0_26"在环境变量中,我将JAVA_HOME设置为C:\ProgramFiles\Java\jdk1.6.0_26路径为%JAVA_HOME%\bin;c:\cygwin\bin;c:\cygwin\usr\sbin但我仍然遇到这些错误。/cygdrive/d/hadoop-1.2.1/libexec/../conf/hadoop-env.sh:li

java - Pig UDF 将文件写入 HDFS

我想通过PigUDF读取一个完整的文件,然后使用Java中的PrintWriter库准备一个输出文件并将其存储在HDFS上。这可能吗,遵循的步骤1)我能够读取UDF中的输入文件。从该文件准备一个HashMap。[已实现]2)通过过滤输入文件将数据写入输出文件。使用HashMap完成过滤[YETTOBEACHIEVED]任何人都可以在我的步骤2中提供帮助。目的是在PigUDF中创建一个文件并写入该文件。谢谢,问候,DheerajRampally。 最佳答案 没问题...我已经找到了替代方案...我现在不再写入文件,而是从PigUDF返

java - 在 Pig 中运行 UDF 时出错

我正在尝试让UDF在pig中运行,但是我遇到了一些问题,因为当我尝试运行pig脚本时,它出错说无法使用值“null”实例化mathPow,如果有人可以提供帮助的话太好了。谢谢pig脚本如下:REGISTERMathPower.jarA=load‘input’usingPigStorage(‘,’);C=foreachAgenerate$0asx,$1asz;B=foreachAgeneratepowUDF.mathUDF(x,z);dumpB;输入文件包含:2,34,5java如下,没有添加外部库,我只是跟着教程学的。我正在使用Java1.6版和Eclipse:packagepowUD

hadoop - 了解作业 conf.xml 参数 pig.script.features

参数是什么pig.script.features66080在jobs_*_conf.xml中表示?它对调整hadoop集群/pig工作流有用吗?网上是否有此类参数的列表及其值的解释? 最佳答案 此参数来自PIG-1333它实际上只不过是脚本级功能的紧凑表示。您看到一个整数值,但它实际上是一个位设置,用于确定在整个Pig脚本中使用哪些功能(不仅仅是在作业级别)关于功能本身,您可以查看以下枚举:staticenumPIG_FEATURE{UNKNOWN,MERGE_JION,REPLICATED_JOIN,SKEWED_JOIN,HAS

hadoop - 用 Pig latin 分组并为每个键流式传输

我的数据格式如下:student_id,course_id,grade,other_information。这适用于大量学生,比如数十亿。我编写了一个perl脚本来为学生处理数据。所以想到使用hadoop框架通过将每个学生的数据流式传输到perl脚本来加速这个过程。我是这样的:student_data=LOAD'source'usingPigStorage('\t')As(stud_id:string,...)grp_student=groupstudent_databystud_id;final_data=foreachgrp_student{flat_data=flatten(gr