草庐IT

pig4cloud

全部标签

hadoop - Apache pig : Replace null with string

我的数据中有很多空条目。由于后期处理,如果我可以将null的默认值设置为字符串“other”,那将非常有帮助。我找不到执行此操作的方法(版本0.8.1-cdh3u4)另外,我的GENERATE语句中有一些变量可能会返回null,我需要类似于SQLDECODE函数的东西来获取“其他”字符串而不是null。例子:tmp=FOREACHdumpGENERATEsite,REGEX_EXTRACT(name,'^(?:([^.]+)\\.?){1}',1)ASproject,((amiMATCHES'.*datatype.*')?REGEX_EXTRACT(name,'^(?:([^.]+)\

hadoop - 如何在 Pig 中过滤时间戳

我有这个模式的表:(id:chararray,ts:long,data:chararray)其中ts代表时间戳,以UNIX时间存储;因为数据会更新,更新后ts会被修改,所以id不会改变。但是所有这些旧记录和新记录都将存储在hdfs中。我只是想看看最新的数据,所以我这样写pig代码:grp=GROUPtableBYid;rst=FOREACHgrp{latest=FILTERtableBYts==MAX(table.ts);GENERATElatest.idASid,latest.dataASdata;}但是Pig代码似乎不起作用,所以有人可以给我建议让这段代码起作用吗?

Hadoop Pig 或流媒体和 Zip 文件

是否有人使用pig或hadoop流加载和解压缩压缩文件?原始csv文件使用pkzip压缩。 最佳答案 不确定这是否有帮助,因为它主要侧重于在Java中使用MapReduce,但在hadoop中有一个可用的ZipFileInputFormat。此处描述了它通过JavaAPI的使用:http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/其中的主要部分是ZipFileRecordReader,它使用JavasZipInputStream来处理每个ZipEntry

hadoop - Pig Mapreduce 计算连续的字母

我需要数字母而不是数单词。但是我在使用ApachePig版本0.8.1-cdh3u1实现这个时遇到了问题给定以下输入:989;850;abcccc29;395;aabbcc输出应该是:989;850;a;1989;850;b;1989;850;c;429;395;a;229;395;b;229;395;c;2这是我尝试过的:A=LOAD'input'usingPigStorage(';')as(x:int,y:int,content:chararray);B=foreachAgeneratex,y,FLATTEN(STRSPLIT(content,'(?A、B和C可以转储,但“转储D”

hadoop - PIG 自动连接默认HDFS,怎么样?

我刚刚开始学习Hadoop和PIG(从最近两天开始!),用于我future的项目之一。为了实验,我安装了Hadoop(默认localhost:9000上的HDFS)作为伪分布式模式和PIG(map-reduce模式)。当我通过输入./bin/pig命令初始化PIG时,它启动了GRUNT命令行,我收到了pig连接到HDFS(localhost:9000)的消息,后来我可以通过pig成功访问HDFS。我希望为PIG执行一些手动配置以访问HDFS(根据各种互联网文章)。我的问题是,PIG从哪里确定了默认的HDFS配置(localhost:9000)?我检查了pig.properties但我在

hadoop - PIG 不读取我的自定义 InputFormat

我有一个自定义的MyInputFormat可以处理multi-linedinputs的记录边界问题.但是当我将MyInputFormat放入我的UDF加载函数时。如下:importorg.apache.hadoop.mapreduce.InputFormat;publicclassEccUDFLogLoaderextendsLoadFunc{@OverridepublicInputFormatgetInputFormat(){System.out.println("IamingetInputFormatfunction");returnnewMyInputFormat();}}impo

hadoop - 执行连接时 Hive vs Pig

我有一些脚本可以处理我网站的日志。我已将此数据加载到Hive中的多个表中。我每天运行这些脚本来分析流量。最近我发现我在这些脚本中编写的配置单元查询花费了太多时间。以前,生成报告大约需要10-15分钟,但现在需要数小时才能完成。我对数据进行了分析,数据集增加了大约5-10%。我的一个friend建议我,在连接多个Hive表时,Hive不好,我应该将我的脚本切换到Pig。与Pig相比,Hive是否不擅长连接表? 最佳答案 IsHivebadatjoiningtables没有。Hive实际上非常好,但有时需要花点时间使用查询优化器。根据您

hadoop - 在多节点 Cassandra 集群上运行 pig

我正在研究将从cassandra读取数据的BI流程,使用MapReduce创建摘要并写回不同的键空间。从单个节点开始,一切都按我预期的那样工作,但是当移动到多节点时,我不确定我是否完全理解拓扑和配置。我有一个包含3个节点的设置。每个都有一个Cassandra节点(版本1.1.9)、数据节点和任务跟踪器(版本0.20.2+923.421-CDH3U5)。NameNode和作业跟踪器在不同的服务器上。此时我正在尝试从DataNode服务器运行Pig脚本。我不确定的是pig参数PIG_INITIAL_ADDRESS。我假设查询会在所有Cassandra节点上运行,每个任务跟踪器只会查询本地C

hadoop - Pig 将架构更改为所需类型

我是Pig的新用户。我有一个要修改的现有架构。我的源数据如下,有6列:NameTypeDateRegionOpValue-----------------------------------------------------johnab20130106DX20johnab20130106DC19jphnab20130106DT8jphnab20130106EC854jphnab20130106ET67jphnab20130106EX98等等。每个Op值始终是C、T或X。我基本上想按以下方式将我的数据分成7列:NameTypeDateRegionOpXOpCOpT-----------

java - 在JAVA文件中嵌入pig查询进行操作

我正在寻找将pig查询嵌入到javamap-reduce程序中的方法。我想知道这是否可能。如果可能,如何完成它。 最佳答案 我将从readingthedocumentationon"embededpig"开始 关于java-在JAVA文件中嵌入pig查询进行操作,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/15519478/