草庐IT

hadoop - PIG - HBASE - HBaseStorage key 过滤器(gt,lt)

在PIG脚本中,我使用HBaseStorage从HBase表加载所有行。但是,我想通过行键过滤行。我查看了源代码,我可以通过构造函数发送-gt&-lt。但是,我不知道如何将我的值传递给构造函数。它是一个字节[]...这里是我所在的地方:LOAD'hbase://TABLE'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('CF:I','-casterHBaseBinaryConverter')AS(product_id:bytearray);如果可能,请提供示例代码... 最佳答案

hadoop - 在对多行数据集使用 Pig 时对相似值执行计数

我是PIG的新手,正在尝试解决多行输入(网站)的字数统计(网站)问题。例如我的输入数据集有值输入数据Emailwebsitese1web1web2web3web1....e2web2web3web2web2web4...e3web1web2web1web4.....我想要的输出将是Emailwebsitese1web1(2)web2(1)web3(1)....e2web2(3)web3(1)web4(1)...e3web1(2)web2(1)web4(1).....在我的数据集中,我有将近50000个电子邮件ID(用户) 最佳答案

java - Pig UDF 将文件写入 HDFS

我想通过PigUDF读取一个完整的文件,然后使用Java中的PrintWriter库准备一个输出文件并将其存储在HDFS上。这可能吗,遵循的步骤1)我能够读取UDF中的输入文件。从该文件准备一个HashMap。[已实现]2)通过过滤输入文件将数据写入输出文件。使用HashMap完成过滤[YETTOBEACHIEVED]任何人都可以在我的步骤2中提供帮助。目的是在PigUDF中创建一个文件并写入该文件。谢谢,问候,DheerajRampally。 最佳答案 没问题...我已经找到了替代方案...我现在不再写入文件,而是从PigUDF返

java - 在 Pig 中运行 UDF 时出错

我正在尝试让UDF在pig中运行,但是我遇到了一些问题,因为当我尝试运行pig脚本时,它出错说无法使用值“null”实例化mathPow,如果有人可以提供帮助的话太好了。谢谢pig脚本如下:REGISTERMathPower.jarA=load‘input’usingPigStorage(‘,’);C=foreachAgenerate$0asx,$1asz;B=foreachAgeneratepowUDF.mathUDF(x,z);dumpB;输入文件包含:2,34,5java如下,没有添加外部库,我只是跟着教程学的。我正在使用Java1.6版和Eclipse:packagepowUD

hadoop - 了解作业 conf.xml 参数 pig.script.features

参数是什么pig.script.features66080在jobs_*_conf.xml中表示?它对调整hadoop集群/pig工作流有用吗?网上是否有此类参数的列表及其值的解释? 最佳答案 此参数来自PIG-1333它实际上只不过是脚本级功能的紧凑表示。您看到一个整数值,但它实际上是一个位设置,用于确定在整个Pig脚本中使用哪些功能(不仅仅是在作业级别)关于功能本身,您可以查看以下枚举:staticenumPIG_FEATURE{UNKNOWN,MERGE_JION,REPLICATED_JOIN,SKEWED_JOIN,HAS

hadoop - 用 Pig latin 分组并为每个键流式传输

我的数据格式如下:student_id,course_id,grade,other_information。这适用于大量学生,比如数十亿。我编写了一个perl脚本来为学生处理数据。所以想到使用hadoop框架通过将每个学生的数据流式传输到perl脚本来加速这个过程。我是这样的:student_data=LOAD'source'usingPigStorage('\t')As(stud_id:string,...)grp_student=groupstudent_databystud_id;final_data=foreachgrp_student{flat_data=flatten(gr

json - 在 Hortonworks Sandbox 中的 Pig 脚本中加载 JSON 文件

我是整个Hadoop/Hortonworks/Pig的新手,所以请问这个问题。我已经安装了Hortonworks沙盒。我正在尝试加载一个TwitterJSON文件并对该文件执行一些查询,但我目前卡在加载文件部分。我知道我应该使用Elephant-bird以便使用JsonLoader()加载JSON文件(不指定JSON模式),所以我从git存储库下载了Elephant-bird并包含了jar文件Elephant-bird\repo\com\twitter\elephant-bird\2.2.3\elephant-bird-2.2.3.jar在Hortonworks沙盒中。这是我的Pig脚

hadoop - PIG 拉丁语 : Output Path based on Field Value

我有一个日志文件,其中包含来自多个域的日志。现在我想对它们进行一些分析并将输出存储在一个名为域的目录中。我在日志中将域作为字段值:STOREoutputlogsINTO'testpath/DOMAIN/logsUSING....这可能吗?或者我只能将输出存储在硬编码文件路径中吗? 最佳答案 如果域的名称是outputlogs中的一个字段,那么您可以使用MultiStorage从存钱jar。像这样的东西:STOREoutputlogsINTO'testpath/DOMAIN/logs'USINGMultiStorage('testpa

hadoop - 在多个节点中运行 Pig 脚本

我已经配置了一个包含三个节点的Hadoop集群。所有节点都工作正常并已连接。我已经在HDFS中上传了28GB的文件并执行Pig脚本来处理该文件。当我执行脚本时。它仅在单个节点中运行。能否请您给我建议并解释为什么它只在单节点上运行?我在配置中遗漏了什么吗?我使用的是Hadoop2.2.0和Pig0.12版本。 最佳答案 您是否尝试在脚本中设置parallel?您有三个节点,因此您可以尝试设置为parallel3。将它与以下任何运算符一起使用是有意义的:组合作小组加入限制订购与众不同语法示例:groupxbyyparallel3;你的文

hadoop - Pig local 与 mapreduce 模式性能比较

我已经使用Cloudera管理器CDH4设置了一个3节点Hadoop集群。当在mapreduce模式下运行Pig作业时,对于相同的数据集,它花费的时间是本地模式的两倍。这是预期的行为吗?另外,是否有任何文档可用于mapreduce作业的性能调整选项?非常感谢您的帮助! 最佳答案 这可能是因为您使用的是玩具数据集,并且mapreduce的开销大于并行化的好处 关于hadoop-Piglocal与mapreduce模式性能比较,我们在StackOverflow上找到一个类似的问题: