草庐IT

Pig-Latin

全部标签

利用pig分析cdn访问日志内指定时间段的url访问次数

需求说明:由于cdn收费是按照最高带宽收费的,但是公司平台平均使用cdn带宽为100M多,但是有几个时间点的带宽,突然涨到300M,但是不到5分钟就回落下来了,但就是为5分钟的高出的带宽,公司就要多付费用,不划算,所以要配合研发分析峰值左右前后5分钟的url访问次数,定位问题!cdn流量图如下:目标:通过分析cdn日志中10点整到10点50之间的url访问次数,来判定故障源!具体实现方式:#以","为分割符,加载日志文件大排变量agrunt>a=load'/user/hadoop/input/16456_2014102710_enclf.log'>>usingPigStorage('')>>A

你用pig分析access_log日志中ip访问次数

环境说明:os版本:rhel5.764位hadoop版本:hadoop-0.20.2hbase版本:hbase-0.90.5pig版本:pig-0.9.2访问日志文件,下载文章中的附件!日志放在本地目录路径为:/home/hadoop/access_log.txt日志格式为:220.181.108.151--[31/Jan/2012:00:02:32+0800]"GET/home.php?mod=space&uid=158&do=album&view=me&from=spaceHTTP/1.1"2008784"-""Mozilla/5.0(compatible;Baiduspider/2.0;

你用pig分析access_log日志中ip访问次数

环境说明:os版本:rhel5.764位hadoop版本:hadoop-0.20.2hbase版本:hbase-0.90.5pig版本:pig-0.9.2访问日志文件,下载文章中的附件!日志放在本地目录路径为:/home/hadoop/access_log.txt日志格式为:220.181.108.151--[31/Jan/2012:00:02:32+0800]"GET/home.php?mod=space&uid=158&do=album&view=me&from=spaceHTTP/1.1"2008784"-""Mozilla/5.0(compatible;Baiduspider/2.0;

Pig自定义过滤UDF和加载UDF

    Pig是一种数据流编程语言,由一系列操作和变换构成,每一个操作或者变换都对输入进行处理,然后产生输出结果,整体操作表示一个数据流。Pig的执行环境将数据流翻译为可执行的内部表示,在Pig内部,这些变换操作被转换为一系列的MapReduce作业。   Pig自身有许多个方法,有时候需要我们自己定制特定的处理方法即UDF。   UDF具体的步骤如下:第一步,继承计算类或者过滤类或者加载类或者存储类,重写里面的需要实现的方法,将写好的类进行打包生成jar文件。诸如命名为example.jar第二步,进入Pig的grunt中,利用register将打包的文件注册进入Pig中。进入Pig的gru

Pig自定义过滤UDF和加载UDF

    Pig是一种数据流编程语言,由一系列操作和变换构成,每一个操作或者变换都对输入进行处理,然后产生输出结果,整体操作表示一个数据流。Pig的执行环境将数据流翻译为可执行的内部表示,在Pig内部,这些变换操作被转换为一系列的MapReduce作业。   Pig自身有许多个方法,有时候需要我们自己定制特定的处理方法即UDF。   UDF具体的步骤如下:第一步,继承计算类或者过滤类或者加载类或者存储类,重写里面的需要实现的方法,将写好的类进行打包生成jar文件。诸如命名为example.jar第二步,进入Pig的grunt中,利用register将打包的文件注册进入Pig中。进入Pig的gru