草庐IT

pig4cloud

全部标签

hadoop - pig 加入Cloudera VM

我尝试在apachepig中执行一个简单的连接。我使用的数据集来自http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-1K.html这是我在pig壳里做的:profiles=LOAD'/user/hadoop/tests/userid-profile.tsv'AS(id,gender,age,country,dreg);songs=LOAD'/user/hadoop/tests/userid-timestamp-artid-artname-traid-traname.tsv'AS(userID,timest

hadoop - 来自 Hadoop PIG 作业的 Lucene 查询

我在Lucene索引中索引了数千个客户名称、替代名称、公司名称等详细信息(索引未存储在HDFS中)。我在HDFS中有大量(>100M)的人员数据,我想使用Lucene索引扫描人员数据,我目前正在使用PIG从HDFS进行数据处理。我正在尝试寻找是否可以运行PIG作业来提取数据并并行执行对Lucene索引的查询(可能通过使用自定义编写的UDF),我无法想象Lucene本地索引是如何加载的并在PIG作业中共享(在Lucene查询之后,如果找到匹配项,我需要匹配的文档ID)。可以使用PIG吗?或者我需要为此编写自定义map-reduce作业?或任何其他建议?谢谢。

hadoop - Pig - 解析 XML 文件

我想在pig中解析这样的XML文件:person1blablablablablablaperson2blablablablablablablablabla我已经写了一个JAVA程序,它产生了这个输出:第一个文件,其中包含人名与其ID之间的映射:1,person12,person2然后我可以使用这个pig命令将文件加载到一个变量中:A=load'...'AS(id_person:int,name:chararray);第二个文件,用于映射人员及其经历1,1,blablabla1,2,blablabla2,1,blablabla2,2,blablabla2,3,blablabla我以这种方

hadoop - 如何在 Pig 中跟踪文件组合过程

当我运行加载大量小文件的Pig作业时,它会在此步骤中暂停很长时间:2013-07-1516:44:00,464[JobControl]INFOorg.apache.hadoop.mapreduce.lib.input.FileInputFormat-Totalinputpathstoprocess:42772013-07-1516:44:00,465[JobControl]INFOorg.apache.pig.backend.hadoop.executionengine.util.MapRedUtil-Totalinputpathstoprocess:42772013-07-1516:

optimization - 优化 Pig 请求

我想在嵌入式java程序中执行pig命令。目前,我在本地模式下尝试Pig。我的数据文件大小约为15MB,但此命令的执行时间很长,所以我认为我的脚本需要优化...我的脚本:A=LOAD'data'USINGPigPrismeLoader('data.xml');filter_response_time_less_than_1_s=FILTERABY(response_time=1000.0ANDresponse_time=2000.0);star__zne_asfo_access_log=FOREACH(COGROUPABY(date_day,url,date_minute,ret_co

hadoop - PIG - HBASE - HBaseStorage key 过滤器(gt,lt)

在PIG脚本中,我使用HBaseStorage从HBase表加载所有行。但是,我想通过行键过滤行。我查看了源代码,我可以通过构造函数发送-gt&-lt。但是,我不知道如何将我的值传递给构造函数。它是一个字节[]...这里是我所在的地方:LOAD'hbase://TABLE'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('CF:I','-casterHBaseBinaryConverter')AS(product_id:bytearray);如果可能,请提供示例代码... 最佳答案

hadoop - 在对多行数据集使用 Pig 时对相似值执行计数

我是PIG的新手,正在尝试解决多行输入(网站)的字数统计(网站)问题。例如我的输入数据集有值输入数据Emailwebsitese1web1web2web3web1....e2web2web3web2web2web4...e3web1web2web1web4.....我想要的输出将是Emailwebsitese1web1(2)web2(1)web3(1)....e2web2(3)web3(1)web4(1)...e3web1(2)web2(1)web4(1).....在我的数据集中,我有将近50000个电子邮件ID(用户) 最佳答案

java - Pig UDF 将文件写入 HDFS

我想通过PigUDF读取一个完整的文件,然后使用Java中的PrintWriter库准备一个输出文件并将其存储在HDFS上。这可能吗,遵循的步骤1)我能够读取UDF中的输入文件。从该文件准备一个HashMap。[已实现]2)通过过滤输入文件将数据写入输出文件。使用HashMap完成过滤[YETTOBEACHIEVED]任何人都可以在我的步骤2中提供帮助。目的是在PigUDF中创建一个文件并写入该文件。谢谢,问候,DheerajRampally。 最佳答案 没问题...我已经找到了替代方案...我现在不再写入文件,而是从PigUDF返

java - 在 Pig 中运行 UDF 时出错

我正在尝试让UDF在pig中运行,但是我遇到了一些问题,因为当我尝试运行pig脚本时,它出错说无法使用值“null”实例化mathPow,如果有人可以提供帮助的话太好了。谢谢pig脚本如下:REGISTERMathPower.jarA=load‘input’usingPigStorage(‘,’);C=foreachAgenerate$0asx,$1asz;B=foreachAgeneratepowUDF.mathUDF(x,z);dumpB;输入文件包含:2,34,5java如下,没有添加外部库,我只是跟着教程学的。我正在使用Java1.6版和Eclipse:packagepowUD

hadoop - 了解作业 conf.xml 参数 pig.script.features

参数是什么pig.script.features66080在jobs_*_conf.xml中表示?它对调整hadoop集群/pig工作流有用吗?网上是否有此类参数的列表及其值的解释? 最佳答案 此参数来自PIG-1333它实际上只不过是脚本级功能的紧凑表示。您看到一个整数值,但它实际上是一个位设置,用于确定在整个Pig脚本中使用哪些功能(不仅仅是在作业级别)关于功能本身,您可以查看以下枚举:staticenumPIG_FEATURE{UNKNOWN,MERGE_JION,REPLICATED_JOIN,SKEWED_JOIN,HAS