hive复杂类型数据详解—array,map,struct

濛小万 2023-04-10 原文

hive复杂数据类型有三种，map，array，struct。本文会详细介绍三种类型数据的建表、查询、相关函数以及与其他数据类型的相互转换。

一、简介

map 是一种(key-value)键值对类型；
array 是一种数组类型，array 中存放相同类型的数据；
struct 是一种集合类型。

二、建表语句

create table demo_class(
name string,
score array<int>,
result map<string, int>,
class struct<id:int, grade:string>
)
row format delimited fields terminated by '\t' #列分隔符
collection items terminated by '|' #每个map,struct,array 数据之间的分隔符，三种类型的数据统一用一个
map keys terminated by ':' #map 中的key与value的分隔符
lines terminated by '\n' #行分隔符
stored as textfile;

查看表结构

打开文件写入三行数据

vim /root/tmp/demo_class.txt

注意分隔符要与建表语句一致，如此表指定每列字段之间用tab分割，数据之间用“|”分隔，map的key与value之间用冒号“:”分隔，回车换行

a 90|92 math:90|english:92 1|genius
b 80|60 math:80|english:60 2|excellent
c 50|66 math:50|english:66 3|fighting

将数据载入表中

load data local inpath '/root/tmp/demo_class.txt' overwrite into table test.demo_class ;

查看三种数据类型的数据

三、类型构建

array(val1, val2,…)
map(key1, value1, key2, value2,…)
struct(val1, val2, val3,…)

select 
 array(90,92) as score ,
 map('math',90,'english',92)as result ,
 struct(1,'genius') as class

[90,92] {“math”:90,“english”:92} {“col1”:1,“col2”:“genius”}

四、查询

array类型

1.数据访问

语法: A[n]
操作类型: A为array类型，n为int类型
说明：返回数组A中的第n个变量值，数组的起始下标为0

select score, score[0], score[1] from demo_class ;

[90,92] 90 92
[80,60] 80 60
[50,66] 50 66

2.size()函数可以查询数组中元素的个数，下标超过长度返回null 值

[90,92] 2 NULL
[80,60] 2 NULL
[50,66] 2 NULL

select score, size(score), score[3] from demo_class ;

3.array_contains()函数可以查询数组中是否包含某个元素

array_contains(数组名，值)
返回 true 或 false

select score, array_contains(score, 90) from demo_class;

[90,92] true
[80,60] false
[50,66] false

map类型

1.数据访问

语法: M[key]
操作类型: M为map类型，key为map中的key值
说明：返回map类型M中key值为指定值的value值

select result, result['math'], result['english'] from demo_class ;

{“math”:90,“english”:92} 90 92
{“math”:80,“english”:60} 80 60
{“math”:50,“english”:66} 50 66

2.获取map中的键、值

map_keys()
map_values()

select map_keys(result), map_values(result) from demo_class ;

[“math”,“english”] [90,92]
[“math”,“english”] [80,60]
[“math”,“english”] [50,66]

3.size()函数获取map中键值对的个数

select result, size(result) from demo_class ;

{“math”:90,“english”:92} 2
{“math”:80,“english”:60} 2
{“math”:50,“english”:66} 2

4.查询map中是否包含某个键、值

array_contains(map_keys(字段名), 键名)
array_contains(map_values(字段名), 值名)

select result, array_contains(map_keys(result), 'math') from demo_class ;
select result, array_contains(map_values(result), 90) from demo_class ;

结果分别为

{“math”:90,“english”:92} true
{“math”:80,“english”:60} true
{“math”:50,“english”:66} true

{“math”:90,“english”:92} true
{“math”:80,“english”:60} false
{“math”:50,“english”:66} false

可以当做where 过滤条件，如选取所有result 值为90的数据

select * from demo_class where array_contains(map_values(result), 90) ;

struct类型

语法: S.x
操作类型: S为struct类型
说明：返回集合S中的x字段

select class, class.id, class.grade from demo_class ;

{“id”:1,“grade”:“genius”} 1 genius
{“id”:2,“grade”:“excellent”} 2 excellent
{“id”:3,“grade”:“fighting”} 3 fighting

五、与其他数据类型转换

将array和map转化为基本数据类型（行转列）

explode()

函数将一列array 或者map 结构拆分成多行

select explode(score) from demo_class ;

数据
[90,92]
[80,60]
[50,66]
变为
90
92
80
60
50
66
每一个数据单独成行

select explode(result) from demo_class ;

数据由
{“math”:90,“english”:92}
{“math”:80,“english”:60}
{“math”:50,“english”:66}
变为
math 90
english 92
math 80
english 60
math 50
english 66
key值和value值被分成两列，每一个键值对单独成行

explode 函数如果要和其他字段一起查询，则需借助lateral view 语句。lateral view首先为原始表的每行调用函数，函数会把一行拆分成一或者多行，lateral view再把结果组合，产生一个支持别名表的虚拟表

lateral view udtf(expression) tableAlias AS columnAlias

select name, score, score_e 
from demo_class 
lateral view explode(score) v as score_e ;

select name, result, result_key, result_value  
from demo_class 
lateral view explode(result) v as result_key, result_value ;

基本数据类型转化为array、map（列转行）

1.转为array

collect_set()

函数接受基本数据类型，将某字段的值进行去重汇总，产生array类型的字段。一般需要配合group by一起使用，聚合非分组字段

collect_list() 函数作用同上，但是不去重

如将int 类型的字段score 转化为array 类型

select name, collect_set(score) from demo_score group by name ;

a [90,92]
b [80,60]
c [50,66]
w [70,56]

collect_set() 常与concat_ws() 连用，用于列转行，可以改变连接符号，但返回值是字符串string 类型

concat_ws(separator, [string | array(string)]+)

函数只接受字符串和数组类型，将字段和分隔符拼接为数组

select name, concat_ws('-', collect_set(class) )  from demo_score  group by name ;

a math-english
b math-english
c math-english
w math-english

2.转为map

str_to_map() 函数将字符类型数据，转化成map格式的数据

str_to_map(text, delimiter1, delimiter2)

delimiter1 将文本分隔为键值对，delimiter2 用来分隔key 和value。如果没有指定分隔符，默认 delimiter1 为’,’ ，delimiter2 为’=’。

select str_to_map("math:90-english:92", "-", ":") ;

{“english”:“92”,“math”:“90”}

有关hive复杂类型数据详解—array,map,struct的更多相关文章

ruby - 在 Ruby 中实现 `call_user_func_array` - 2
我怎样才能完成http://php.net/manual/en/function.call-user-func-array.php在ruby中？所以我可以这样做:classAppdeffoo(a,b)putsa+benddefbarargs=[1,2]App.send(:foo,args)#doesn'tworkApp.send(:foo,args[0],args[1])#doeswork,butdoesnotscaleendend 最佳答案尝试分解数组App.send(:foo,*args)
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
Ruby Koans about_array_assignment - 非平行与平行分配歧视 - 2
通过rubykoans.com，我在about_array_assignment.rb中遇到了这两段代码你怎么知道第一个是非并行赋值，第二个是一个变量的并行赋值？在我看来，除了命名差异之外，代码几乎完全相同。4deftest_non_parallel_assignment5names=["John","Smith"]6assert_equal["John","Smith"],names7end45deftest_parallel_assignment_with_one_variable46first_name,=["John","Smith"]47assert_equal'John
ruby - Infinity 和 NaN 的类型是什么？ - 2
我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN？它们是对象、关键字还是其他东西？最佳答案您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串
ruby - 检查方法参数的类型 - 2
我不确定传递给方法的对象的类型是否正确。我可能会将一个字符串传递给一个只能处理整数的函数。某种运行时保证怎么样？我看不到比以下更好的选择:defsomeFixNumMangler(input)raise"wrongtype:integerrequired"unlessinput.class==FixNumother_stuffend有更好的选择吗？最佳答案使用Kernel#Integer在使用之前转换输入的方法。当无法以任何合理的方式将输入转换为整数时，它将引发ArgumentError。defmy_method(number)
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 查找字符串中的内容类型(数字、日期、时间、字符串等) - 2
我正在尝试解析一个CSV文件并使用SQL命令自动为其创建一个表。CSV中的第一行给出了列标题。但我需要推断每个列的类型。Ruby中是否有任何函数可以找到每个字段中内容的类型。例如，CSV行:"12012","Test","1233.22","12:21:22","10/10/2009"应该产生像这样的类型['integer','string','float','time','date']谢谢! 最佳答案 require'time'defto_something(str)if(num=Integer(str)rescueFloat(s
ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2
我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器，但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型，并且只返回text/plain，如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain
arrays - 这是 Ruby 中 Array.fill 方法的错误吗？ - 2
这个问题在这里已经有了答案:Arraysmisbehaving(1个回答)关闭6年前。是否应该这样，即我误解了，还是错误？a=Array.new(3,Array.new(3))a[1].fill('g')=>[["g","g","g"],["g","g","g"],["g","g","g"]]它不应该导致:=>[[nil,nil,nil],["g","g","g"],[nil,nil,nil]]
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_