hadoop - 拆分 Pig 元组

coder 2024-01-08 原文

我想使用 pig 脚本将以下元组拆分为两个元组。

 (key=bb7bde5661923b947ce59958773e85c5\,\/css\/bootstrap.min.cssHTTP\/1.1\,\/con-us.php,\/con-us.phpHTTP\/1.1\)

我想要的输出如下:

(key=bb7bde5661923b947ce59958773e85c5\)     (\/css\/bootstrap.min.cssHTTP\/1.1\,\/con-us.php,\/con-us.phpHTTP\/1.1\)

最佳答案

是的，您可以使用 REGEX 和 TOTUPLE 函数解决这个问题。首先将字符串分成两部分，第一列在第一个逗号之前，第二列是剩余的字符串。最后将两列转换为元组并存储。

输入

key=bb7bde5661923b947ce59958773e85c5\,\/css\/bootstrap.min.cssHTTP\/1.1\,\/con-us.php,\/con-us.phpHTTP\/1.1\

PigScript:

A = LOAD 'input' AS (line:chararray);
B = FOREACH A GENERATE FLATTEN(REGEX_EXTRACT_ALL(line,'^([^,]+),(.*)$')) AS (col1,col2);
C = FOREACH B GENERATE TOTUPLE(col1),TOTUPLE(col2);
STORE C INTO 'output';

输出:(将存储在output/part*文件中)

(key=bb7bde5661923b947ce59958773e85c5\) (\/css\/bootstrap.min.cssHTTP\/1.1\,\/con-us.php,\/con-us.phpHTTP\/1.1\)

关于hadoop - 拆分 Pig 元组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29255365/

有关hadoop - 拆分 Pig 元组的更多相关文章

ruby - 如何在 Ruby 中拆分参数字符串 Bash 样式？ - 2
我正在为一个项目制作一个简单的shell，我希望像在Bash中一样解析参数字符串。foobar"helloworld"fooz应该变成:["foo","bar","helloworld","fooz"]等等。到目前为止，我一直在使用CSV::parse_line，将列分隔符设置为""和.compact输出。问题是我现在必须选择是要支持单引号还是双引号。CSV不支持超过一个分隔符。Python有一个名为shlex的模块:>>>shlex.split("Test'helloworld'foo")['Test','helloworld','foo']>>>shlex.split('Test"
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby - 拆分字符串并分配给不同的变量 - 2
我从ui中得到日期范围为-approved_between"=>"2013-03-17-2013-03-18"我需要拆分此approved_start_date="2013-03-17"和approved_end_date="2013-03-18"...我希望使用它在mysql中查询，因为mysql中的日期格式是created_at:2012-07-2810:35:01.我正在做的是:approved=approved_between.split("")approved_start_date=approved[0]approved_end_date=approved[2]很确定这不是处
ruby-on-rails - Ruby on Rails 将列表拆分或切片为列 - 2
@locations=Location.all#currentlistingall@locations=Location.slice(5)orLocation.split(5)使用Ruby，我试图将我的列表分成4列，每列限制为5个；然而，切片或拆分似乎都不起作用。知道我可能做错了什么吗？任何帮助是极大的赞赏。最佳答案您可能想使用in_groups_of:http://railscasts.com/episodes/28-in-groups-of这是RyanBates在railscast中的示例用法:
ruby - 格式化数字以每隔三位数拆分一次 - 2
我想在格式化数字时每隔三个字符放置一个空格。根据这个规范:it"shouldformatanamount"dospaces_on(1202003).should=="1202003"end我想出了这段代码来完成这项工作defspaces_onamountthousands=amount/1000remainder=amount%1000ifthousands==0"#{remainder}"elsezero_padded_remainder='%03.f'%remainder"#{spaces_onthousands}#{zero_padded_remainder}"endend所以我
ruby - 如何拆分数组？ - 2
给定一个数组:arr=[['a','1'],['b','2'],['c','3']]将它分成两个数组的最佳方法是什么？例如我想从上面的数组中得到以下两个数组:first=['a','b','c']second=['1','2','3']我可以使用collect来做到这一点吗？最佳答案好吧，我只是偶然发现了arr.transposearr=[['a','1'],['b','2'],['c','3']].transposefirst=arr[0]second=arr[1]与上面的答案arr.zip、arr.map、foreach相比
ruby - 如何通过 "\r\n"拆分 Ruby 字符串？ - 2
给定一个字符串:s="Good\r\nDay\r\n\r\n\r\nStack\r\n\r\nOverflow\r\n"我愿意:用(\r\n)+拆分，即我想得到:["Good","Day","Stack","Overflow"]我尝试了s.split(/(\r\n)+/)但它没有给我预期的结果。为什么？我怎样才能得到预期的结果？获取数组中\r\n的个数，即预期结果为:[1,3,2]你会怎么做？我使用Ruby1.9.2。最佳答案差不多了，试试这个:s.split/[\r\n]+/s.scan(/[\r\n]+/).map{|e|e
ruby - 如何拆分两个大写字母？ - 2
我有以下数组:a=["CH3","CH2"]我想使用正则表达式将其拆分为两个大写字母以显示:a=["C","H3","C","H2"]怎么做你这样做吗？到目前为止我已经尝试过:a.each{|array|x=array.scan(/[A-Z]*/)putsa}returns:CHCH提前致谢! 最佳答案你可以试试这个:s.scan(/[A-Z][^A-Z]*/) 关于ruby-如何拆分两个大写字母？，我们在StackOverflow上找到一个类似的问题： h
ruby - Ruby 中的特殊字符串拆分 - 2
我正在尝试找出最好的方法...给定一个字符串s="ifsomeBool||x==1&&y!=22314"我想用Ruby来分隔语句和bool运算符..所以我想把它分成["if","someBool","||","x","==","1","&&","y","!=","22314"]我可以使用s.split()，但这只会以空格作为分隔符进行拆分..但我也希望x!=y也被拆分(它们是有效的bool语句，它们之间没有空格可读性好)。当然，最简单的方法是要求用户在bool运算符和变量之间放置空格，但是还有其他方法可以做到这一点吗？最佳答案按
大数据之Hadoop数据仓库Hive - 2
目录：一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。特点：简单、容易上手(提供了类似sql的查询语言hql)，使得精通sql但是不了解Java编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户函数(UDF)和

hadoop - 拆分 Pig 元组

有关hadoop - 拆分 Pig 元组的更多相关文章

随机推荐