pig4cloud

hadoop - Apache pig : Replace null with string

我的数据中有很多空条目。由于后期处理，如果我可以将null的默认值设置为字符串“other”，那将非常有帮助。我找不到执行此操作的方法(版本0.8.1-cdh3u4)另外，我的GENERATE语句中有一些变量可能会返回null，我需要类似于SQLDECODE函数的东西来获取“其他”字符串而不是null。例子:tmp=FOREACHdumpGENERATEsite,REGEX_EXTRACT(name,'^(?:([^.]+)\\.?){1}',1)ASproject,((amiMATCHES'.*datatype.*')?REGEX_EXTRACT(name,'^(?:([^.]+)\

Replace hadoop section 39 datatype apache-pig

hadoop - 如何在 Pig 中过滤时间戳

我有这个模式的表:(id:chararray,ts:long,data:chararray)其中ts代表时间戳，以UNIX时间存储；因为数据会更新，更新后ts会被修改，所以id不会改变。但是所有这些旧记录和新记录都将存储在hdfs中。我只是想看看最新的数据，所以我这样写pig代码:grp=GROUPtableBYid;rst=FOREACHgrp{latest=FILTERtableBYts==MAX(table.ts);GENERATElatest.idASid,latest.dataASdata;}但是Pig代码似乎不起作用，所以有人可以给我建议让这段代码起作用吗？

何在 hadoop section code pre nosql apache-pig

Hadoop Pig 或流媒体和 Zip 文件

是否有人使用pig或hadoop流加载和解压缩压缩文件？原始csv文件使用pkzip压缩。最佳答案不确定这是否有帮助，因为它主要侧重于在Java中使用MapReduce，但在hadoop中有一个可用的ZipFileInputFormat。此处描述了它通过JavaAPI的使用:http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/其中的主要部分是ZipFileRecordReader，它使用JavasZipInputStream来处理每个ZipEntry

流媒流媒体 section hadoop hadoop-processing-zip-files-in-ma apache-pig hadoop-streaming

hadoop - Pig Mapreduce 计算连续的字母

我需要数字母而不是数单词。但是我在使用ApachePig版本0.8.1-cdh3u1实现这个时遇到了问题给定以下输入:989;850;abcccc29;395;aabbcc输出应该是:989;850;a;1989;850;b;1989;850;c;429;395;a;229;395;b;229;395;c;2这是我尝试过的:A=LOAD'input'usingPigStorage(';')as(x:int,y:int,content:chararray);B=foreachAgeneratex,y,FLATTEN(STRSPLIT(content,'(?A、B和C可以转储，但“转储D”

Mapreduce hadoop int code import apache-pig

hadoop - PIG 自动连接默认HDFS，怎么样？

我刚刚开始学习Hadoop和PIG(从最近两天开始!)，用于我future的项目之一。为了实验，我安装了Hadoop(默认localhost:9000上的HDFS)作为伪分布式模式和PIG(map-reduce模式)。当我通过输入./bin/pig命令初始化PIG时，它启动了GRUNT命令行，我收到了pig连接到HDFS(localhost:9000)的消息，后来我可以通过pig成功访问HDFS。我希望为PIG执行一些手动配置以访问HDFS(根据各种互联网文章)。我的问题是，PIG从哪里确定了默认的HDFS配置(localhost:9000)？我检查了pig.properties但我在

怎么样 hadoop section code HDFS apache-pig

hadoop - PIG 不读取我的自定义 InputFormat

我有一个自定义的MyInputFormat可以处理multi-linedinputs的记录边界问题.但是当我将MyInputFormat放入我的UDF加载函数时。如下:importorg.apache.hadoop.mapreduce.InputFormat;publicclassEccUDFLogLoaderextendsLoadFunc{@OverridepublicInputFormatgetInputFormat(){System.out.println("IamingetInputFormatfunction");returnnewMyInputFormat();}}impo

自定 InputFormat code MyRecordReader createRecordReader hadoop user-defined-functions apache-pig amazon-emr

hadoop - 执行连接时 Hive vs Pig

我有一些脚本可以处理我网站的日志。我已将此数据加载到Hive中的多个表中。我每天运行这些脚本来分析流量。最近我发现我在这些脚本中编写的配置单元查询花费了太多时间。以前，生成报告大约需要10-15分钟，但现在需要数小时才能完成。我对数据进行了分析，数据集增加了大约5-10%。我的一个friend建议我，在连接多个Hive表时，Hive不好，我应该将我的脚本切换到Pig。与Pig相比，Hive是否不擅长连接表？最佳答案 IsHivebadatjoiningtables没有。Hive实际上非常好，但有时需要花点时间使用查询优化器。根据您

hadoop Hive section strong apache-pig piglet

hadoop - 在多节点 Cassandra 集群上运行 pig

我正在研究将从cassandra读取数据的BI流程，使用MapReduce创建摘要并写回不同的键空间。从单个节点开始，一切都按我预期的那样工作，但是当移动到多节点时，我不确定我是否完全理解拓扑和配置。我有一个包含3个节点的设置。每个都有一个Cassandra节点(版本1.1.9)、数据节点和任务跟踪器(版本0.20.2+923.421-CDH3U5)。NameNode和作业跟踪器在不同的服务器上。此时我正在尝试从DataNode服务器运行Pig脚本。我不确定的是pig参数PIG_INITIAL_ADDRESS。我假设查询会在所有Cassandra节点上运行，每个任务跟踪器只会查询本地C

Cassandra hadoop 跟踪器 section apache-pig

hadoop - Pig 将架构更改为所需类型

我是Pig的新用户。我有一个要修改的现有架构。我的源数据如下，有6列:NameTypeDateRegionOpValue-----------------------------------------------------johnab20130106DX20johnab20130106DC19jphnab20130106DT8jphnab20130106EC854jphnab20130106ET67jphnab20130106EX98等等。每个Op值始终是C、T或X。我基本上想按以下方式将我的数据分成7列:NameTypeDateRegionOpXOpCOpT-----------

hadoop Pig chararray code 20130106 apache-pig

java - 在JAVA文件中嵌入pig查询进行操作

我正在寻找将pig查询嵌入到javamap-reduce程序中的方法。我想知道这是否可能。如果可能，如何完成它。最佳答案我将从readingthedocumentationon"embededpig"开始关于java-在JAVA文件中嵌入pig查询进行操作，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/15519478/

java section stackoverflow noreferrer hadoop mapreduce apache-pig

203 204 205206207 208 209