草庐IT

hadoop - 拆分 Pig 元组

coder 2024-01-08 原文

我想使用 pig 脚本将以下元组拆分为两个元组。

 (key=bb7bde5661923b947ce59958773e85c5\,\/css\/bootstrap.min.cssHTTP\/1.1\,\/con-us.php,\/con-us.phpHTTP\/1.1\)

我想要的输出如下:

(key=bb7bde5661923b947ce59958773e85c5\)     (\/css\/bootstrap.min.cssHTTP\/1.1\,\/con-us.php,\/con-us.phpHTTP\/1.1\)

最佳答案

是的,您可以使用 REGEX 和 TOTUPLE 函数解决这个问题。首先将字符串分成两部分,第一列在第一个逗号之前,第二列是剩余的字符串。最后将两列转换为元组并存储。

输入

key=bb7bde5661923b947ce59958773e85c5\,\/css\/bootstrap.min.cssHTTP\/1.1\,\/con-us.php,\/con-us.phpHTTP\/1.1\

PigScript:

A = LOAD 'input' AS (line:chararray);
B = FOREACH A GENERATE FLATTEN(REGEX_EXTRACT_ALL(line,'^([^,]+),(.*)$')) AS (col1,col2);
C = FOREACH B GENERATE TOTUPLE(col1),TOTUPLE(col2);
STORE C INTO 'output';

输出:(将存储在output/part*文件中)

(key=bb7bde5661923b947ce59958773e85c5\) (\/css\/bootstrap.min.cssHTTP\/1.1\,\/con-us.php,\/con-us.phpHTTP\/1.1\)

关于hadoop - 拆分 Pig 元组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29255365/

有关hadoop - 拆分 Pig 元组的更多相关文章

  1. ruby - 如何在 Ruby 中拆分参数字符串 Bash 样式? - 2

    我正在为一个项目制作一个简单的shell,我希望像在Bash中一样解析参数字符串。foobar"helloworld"fooz应该变成:["foo","bar","helloworld","fooz"]等等。到目前为止,我一直在使用CSV::parse_line,将列分隔符设置为""和.compact输出。问题是我现在必须选择是要支持单引号还是双引号。CSV不支持超过一个分隔符。Python有一个名为shlex的模块:>>>shlex.split("Test'helloworld'foo")['Test','helloworld','foo']>>>shlex.split('Test"

  2. hadoop安装之保姆级教程(二)之YARN的配置 - 2

    1.1.1 YARN的介绍 为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN. ApacheYARN(YetanotherResourceNegotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式的操作系统平台,⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现,但是因为具有⾜够的通⽤性,同样可以⽀持其他的分布式计算模

  3. ruby - 拆分字符串并分配给不同的变量 - 2

    我从ui中得到日期范围为-approved_between"=>"2013-03-17-2013-03-18"我需要拆分此approved_start_date="2013-03-17"和approved_end_date="2013-03-18"...我希望使用它在mysql中查询,因为mysql中的日期格式是created_at:2012-07-2810:35:01.我正在做的是:approved=approved_between.split("")approved_start_date=approved[0]approved_end_date=approved[2]很确定这不是处

  4. ruby-on-rails - Ruby on Rails 将列表拆分或切片为列 - 2

    @locations=Location.all#currentlistingall@locations=Location.slice(5)orLocation.split(5)使用Ruby,我试图将我的列表分成4列,每列限制为5个;然而,切片或拆分似乎都不起作用。知道我可能做错了什么吗?任何帮助是极大的赞赏。 最佳答案 您可能想使用in_groups_of:http://railscasts.com/episodes/28-in-groups-of这是RyanBates在railscast中的示例用法:

  5. ruby - 格式化数字以每隔三位数拆分一次 - 2

    我想在格式化数字时每隔三个字符放置一个空格。根据这个规范:it"shouldformatanamount"dospaces_on(1202003).should=="1202003"end我想出了这段代码来完成这项工作defspaces_onamountthousands=amount/1000remainder=amount%1000ifthousands==0"#{remainder}"elsezero_padded_remainder='%03.f'%remainder"#{spaces_onthousands}#{zero_padded_remainder}"endend所以我

  6. ruby - 如何拆分数组? - 2

    给定一个数组:arr=[['a','1'],['b','2'],['c','3']]将它分成两个数组的最佳方法是什么?例如我想从上面的数组中得到以下两个数组:first=['a','b','c']second=['1','2','3']我可以使用collect来做到这一点吗? 最佳答案 好吧,我只是偶然发现了arr.transposearr=[['a','1'],['b','2'],['c','3']].transposefirst=arr[0]second=arr[1]与上面的答案arr.zip、arr.map、foreach相比

  7. ruby - 如何通过 "\r\n"拆分 Ruby 字符串? - 2

    给定一个字符串:s="Good\r\nDay\r\n\r\n\r\nStack\r\n\r\nOverflow\r\n"我愿意:用(\r\n)+拆分,即我想得到:["Good","Day","Stack","Overflow"]我尝试了s.split(/(\r\n)+/)但它没有给我预期的结果。为什么?我怎样才能得到预期的结果?获取数组中\r\n的个数,即预期结果为:[1,3,2]你会怎么做?我使用Ruby1.9.2。 最佳答案 差不多了,试试这个:s.split/[\r\n]+/s.scan(/[\r\n]+/).map{|e|e

  8. ruby - 如何拆分两个大写字母? - 2

    我有以下数组:a=["CH3","CH2"]我想使用正则表达式将其拆分为两个大写字母以显示:a=["C","H3","C","H2"]怎么做你这样做吗?到目前为止我已经尝试过:a.each{|array|x=array.scan(/[A-Z]*/)putsa}returns:CHCH提前致谢! 最佳答案 你可以试试这个:s.scan(/[A-Z][^A-Z]*/) 关于ruby-如何拆分两个大写字母?,我们在StackOverflow上找到一个类似的问题: h

  9. ruby - Ruby 中的特殊字符串拆分 - 2

    我正在尝试找出最好的方法...给定一个字符串s="ifsomeBool||x==1&&y!=22314"我想用Ruby来分隔语句和bool运算符..所以我想把它分成["if","someBool","||","x","==","1","&&","y","!=","22314"]我可以使用s.split(),但这只会以空格作为分隔符进行拆分..但我也希望x!=y也被拆分(它们是有效的bool语句,它们之间没有空格可读性好)。当然,最简单的方法是要求用户在bool运算符和变量之间放置空格,但是还有其他方法可以做到这一点吗? 最佳答案 按

  10. 大数据之Hadoop数据仓库Hive - 2

    目录:一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。特点:简单、容易上手(提供了类似sql的查询语言hql),使得精通sql但是不了解Java编程的人也能很好地进行大数据分析;灵活性高,可以自定义用户函数(UDF)和

随机推荐