草庐IT

OLAP引擎:基于Druid组件进行数据统计分析

知了一笑 2023-03-28 原文

一、Druid概述

1、Druid简介

Druid是一款基于分布式架构的OLAP引擎,支持数据写入、低延时、高性能的数据分析,具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有相关的应用场景,是大数据基础架构建设中重要组件。

与现在相对热门的Clickhouse引擎相比,Druid对高并发的支持相对较好和稳定,但是Clickhouse在任务队列模式中的数据查询能力十分出色,但是对高并发支持不够友好,需要做好很多服务监控和预警。大数据组件中OLAP引擎的选型有很多,在数据的查询引擎层通常都具有两种或者以上的OLAP引擎,选择合适的组件解决业务需求是优先原则。

2、基本特点

分布式

分布式的OLAP数据引擎,数据分布在多个服务节点中,当数据量激烈增长的时候,可以通过增加节点的方式进行水平扩容,数据在多个节点相互备份,如果单个节点出现故障,则可基于Zookeeper调度机制重新构建数据,这是分布式OLAP引擎的基本特点,在之前Clickhouse系列中也说过这个策略。

聚合查询

主要针对时间序列数据提供低延时数据写入和快速聚合查询,时序数据库特点写入即可查询,Druid在数据写入时就会对数据预聚合,进而减少原始数据量,节省存储空间并提升查询效率;数据聚合粒度可以基于特定策略,例如分钟、小时、天等。必须要强调Druid适合数据分析场景,并不适合单条数据主键查询的业务。

列式存储

Druid面向列的存储方式,并且可以在集群中进行大规模的并行查询,这意味在只需要加载特定查询所需要的列情况下,查询速度可以大幅度提升。

3、基础架构

统治者节点

即Overlord-Node,任务的管理节点,进程监视MiddleManager进程,并且是数据摄入Druid的控制器,负责将提取任务分配给MiddleManagers并协调Segement发布。

协调节点

即Coordinator-Node,主要负责数据的管理和在历史节点上的分布,协调节点告诉历史节点加载新数据、卸载过期数据、复制数据、和为了负载均衡移动数据。

中间管理节点

即MiddleManager-Node,摄入实时数据,已生成Segment数据文件,可以理解为overlord节点的工作节点。

历史节点

即Historical-Node,主要负责历史数据存储和查询,接收协调节点数据加载与删除指令,historical节点是整个集群查询性能的核心所在,因为historical会承担绝大部分的segment查询。

查询节点

即Broker-Node,扮演着历史节点和实时节点的查询路由的角色,接收客户端查询请求,并将这些查询转发给Historicals和MiddleManagers,当Brokers从这些子查询中收到结果时,它们会合并这些结果并将它们返回给调用者。

数据文件存储库

即DeepStorage,存放生成的Segment数据文件。

元数据库

即MetadataStorage,存储Druid集群的元数据信息,比如Segment的相关信息。

协调中间件

即Zookeeper,为Druid集群提供协调服务,如内部服务的监控,协调和领导者选举。

二、Druid部署

1、安装包

imply对druid做了集成,并提供从部署到配置到各种可视化工具的完整的解决方案。

https://static.imply.io/release/imply-2.7.10.tar.gz 解压并重新命名。

[root@hop01 opt]# tar -zxvf imply-2.7.10.tar.gz [root@hop01 opt]# mv imply-2.7.10 imply2.7

2、Zookeeper配置

配置Zookeeper集群各个节点,逗号分隔。

[root@hop01 _common]# cd /opt/imply2.7/conf/druid/_common [root@hop01 _common]# vim common.runtime.properties druid.zk.service.host=hop01:2181,hop02:2181,hop03:2181 关闭Zookeeper内置校验并且不启动。

[root@hop01 supervise]# cd /opt/imply2.7/conf/supervise [root@hop01 supervise]# vim quickstart.conf 注释掉如下内容:

3、服务启动

依次启动相关组件:Zookeeper、Hadoop相关组件,然后启动imply服务。

[root@hop01 imply2.7]# /opt/imply2.7/bin/supervise -c /opt/imply2.7/conf/supervise/quickstart.conf 注意虚拟机内存问题,在如下的目录中Druid各个组件的JVM配置,条件不允许的话适当拉低,并且要拉高JVM相关内存参数。

[root@hop01 druid]# cd /opt/imply2.7/conf/druid 启动默认端口:9095,访问界面如下:

三、基础用法

1、数据源配置

选择上述Http的方式,基于imply提供的JSON测试文件。

https://static.imply.io/data/wikipedia.json.gz

2、数据在线加载

执行上述:Sample and continue

样本数据加载配置:

数据列的配置:

配置项总体概览:

最后执行数据加载任务即可。

3、本地样本加载

[root@hop01 imply2.7]# bin/post-index-task --file quickstart/wikipedia-index.json 这样读取两份数据脚本。

4、数据立方体

数据加载完成后,查看可视化数据立方体:

数据立方体中提供一些基础的视图分析,可以在多个维度上拆分数据集并进行数据分析:

5、SQL查询

可以基于可视化工具对Druid进行SQL查询,语法与常用规则几乎一样:

SELECT COUNT(*) AS Edits FROM wikipedia; SELECT * FROM wikipedia WHERE "__time" BETWEEN TIMESTAMP '开始' AND TIMESTAMP '结束'; SELECT page, COUNT(*) AS Edits FROM wikipedia GROUP BY page LIMIT 2; SELECT * FROM wikipedia ORDER BY __time DESC LIMIT 5; SELECT * FROM wikipedia LIMIT 3;

6、Segment文件

文件位置:

/opt/imply2.7/var/druid/segments/wikipedia/ Druid基于Segment实现对数据的切割,数据按时间的时序分布,将不同时间范围内的数据存储在不同的Segment数据块中,按时间范围查询数据时,可以避免全数据扫描效率可以极大的提高,同时面向列进行数据压缩存储,提高分析的效率。

$$End$$

Gitee主页:https://gitee.com/cicadasmile/butte-java-note


有关OLAP引擎:基于Druid组件进行数据统计分析的更多相关文章

  1. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  2. ruby-on-rails - 按天对 Mongoid 对象进行分组 - 2

    在控制台中反复尝试之后,我想到了这种方法,可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法,但它确实有效。有没有人有更好的建议,或者这是一个很好的方法?#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev

  3. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  4. ruby - 使用 C 扩展开发 ruby​​gem 时,如何使用 Rspec 在本地进行测试? - 2

    我正在编写一个包含C扩展的gem。通常当我写一个gem时,我会遵循TDD的过程,我会写一个失败的规范,然后处理代码直到它通过,等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb,如何运行我的规范并仍然加载我的C扩展?当我更改C代码时,我需要采取哪些步骤来重新编译代码?这可能是个愚蠢的问题,但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时,我确实得到了一个Makefile(在整个项目的根目录中),然后当

  5. ruby - 在没有 sass 引擎的情况下使用 sass 颜色函数 - 2

    我想在一个没有Sass引擎的类中使用Sass颜色函数。我已经在项目中使用了sassgem,所以我认为搭载会像以下一样简单:classRectangleincludeSass::Script::FunctionsdefcolorSass::Script::Color.new([0x82,0x39,0x06])enddefrender#hamlengineexecutedwithcontextofself#sothatwithintemlateicouldcall#%stop{offset:'0%',stop:{color:lighten(color)}}endend更新:参见上面的#re

  6. ruby - 如何进行排列以有效地定制输出 - 2

    这是一道面试题,我没有答对,但还是很好奇怎么解。你有N个人的大家庭,分别是1,2,3,...,N岁。你想给你的大家庭拍张照片。所有的家庭成员都排成一排。“我是家里的friend,建议家庭成员安排如下:”1岁的家庭成员坐在这一排的最左边。每两个坐在一起的家庭成员的年龄相差不得超过2岁。输入:整数N,1≤N≤55。输出:摄影师可以拍摄的照片数量。示例->输入:4,输出:4符合条件的数组:[1,2,3,4][1,2,4,3][1,3,2,4][1,3,4,2]另一个例子:输入:5输出:6符合条件的数组:[1,2,3,4,5][1,2,3,5,4][1,2,4,3,5][1,2,4,5,3][

  7. ruby - 即使失败也继续进行多主机测试 - 2

    我已经构建了一些serverspec代码来在多个主机上运行一组测试。问题是当任何测试失败时,测试会在当前主机停止。即使测试失败,我也希望它继续在所有主机上运行。Rakefile:namespace:specdotask:all=>hosts.map{|h|'spec:'+h.split('.')[0]}hosts.eachdo|host|begindesc"Runserverspecto#{host}"RSpec::Core::RakeTask.new(host)do|t|ENV['TARGET_HOST']=hostt.pattern="spec/cfengine3/*_spec.r

  8. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  9. ruby - 是否可以覆盖 gemfile 进行本地开发? - 2

    我们的git存储库中目前有一个Gemfile。但是,有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它,我必须将它添加到我们的Gemfile中,但每次我checkout到我们的master/dev主分支时,由于与跟踪的gemfile冲突,我必须删除它。我想要的是类似Gemfile.local的东西,它将继承从Gemfile导入的gems,但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗? 最佳答案 设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI

  10. ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反? - 2

    这似乎非常适得其反,因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby​​-mysqlgem问题(gem本身发生段错误,一个名为UnixSocket的类显然在Windows机器上不能正常工作,等等)。我只是在浪费时间吗?我应该转向不同的脚本语言吗? 最佳答案 我在Windows上使用Ruby的经验很少,但是当我开始使用Ruby时,我是在Windows上,我的总体印象是它不是Windows原生系统。因此,在主要使用Windows多年之后,开始使用Ruby促使我切换回原来的系统Unix,这次是Linux。Rub

随机推荐