openGemini内核源码正式对外开源

华为云开发者社区 2023-03-28 原文

摘要：openGemini是一个开源的分布式时序数据库系统，可广泛应用于物联网、车联网、运维监控、工业互联网等业务场景，具备卓越的读写性能和高效的数据分析能力。

本文分享自华为云社区《华为云面向全球正式开放openGemini内核源码》，作者：云数据库创新Lab。

一、背景介绍

物联网时代已经来临，物联网设备走进我们的日常生活，例如智能冰箱、电动汽车、智能手表等等。公开报告显示，预计到2025年，中国的物联网连接数会占到全球的30%。这些联网的设备每时每刻都在产生大量的数据，每天的数据增长量可以达到GB级甚至TB级，给数据库带来非常大的挑战，例如：高并发写入大量数据导致数据入库太慢，海量数据引起过高的存储成本和查询时延等等。时序场景作为物联网领域的典型场景，与传统关系型数据库场景有很大区别，时序数据库专为时序场景设计和优化，近年来开始受到越来越多的关注。

华为云整合产业和技术优势，打造了业界领先的企业级时序数据库GaussDB for Influx，并经过外部公有云业务服务化的锤炼以及内部DevOps等业务的长时间打磨，在大规模集群、高性能查询、分级压缩存储等方面都有明显优势。今年6月，华为云宣布将GaussDB for Influx内核正式对外开源，开源品牌命名为openGemini。

openGemini是一个开源的分布式时序数据库系统，可广泛应用于物联网、车联网、运维监控、工业互联网等业务场景，具备卓越的读写性能和高效的数据分析能力。

二、openGemini软件架构

2.1架构设计

openGemini采用MPP 大规模并行处理分层架构，由ts-sql（计算引擎）、ts-store（存储引擎）、ts-meta（元数据引擎）三大部分组成。openGemini既支持集群部署，也可以单机部署。

ts-sql：统一处理客户端请求

提供RESTful接口
兼容InfluxDB Line Protocol和v1 API，同时也支持Prometheus的远程数据读写
查询语句执行期间，从ts-store获取数据并汇总，并返回客户端
支持横向扩展

ts-store：数据管理

将原始数据按优化设计的数据格式进行统一组织和存储
按时间范围和时间线ID查询数据
支持横向扩展

ts-meta：元数据管理

数据库集群元数据管理，如节点信息等
数据库元数据管理，如数据保留时间、数据分区信息、表信息等

2.2关键特性

高性能读写

每秒千万级指标数据并发写入，毫秒级查询响应支持时序数据分析
内置AI数据分析算法，支持实时异常检测和预测

兼容时序生态

完全兼容InfluxDB Line Protocol 和 InfluxQL
无缝集成现有InfluxDB工具链
支持Prometheus远程数据存储

分布式

提供了水平扩展能力，支持数百节点集群规模

海量时序数据高效管理

支持亿级时间线管理
内置高效数据压缩算法，存储成本只有传统关系数据库的1/20

部署灵活

部署只需运行编译生成的可执行文件，无需外部依赖
所有数据库配置参数均有合理的默认值，无需手动设置
支持单机和集群部署

三、openGemini有什么优势

3.1性能优势

针对物联网、运维监控等领域海量数据管理和分析的需求，openGemini对计算引擎和存储引擎做了大量的优化设计。

查询引擎，实现了向量化、分布式计算、算子下推、预聚合等多种查询优化和执行技术，提升了数据查询效率。在工业物联网、运维监控等场景中实现交互级的查询时延，并且在超大数据基数（万亿级）的情况下，也能够达到很低的查询时延。
存储引擎，设计列式数据存储格式，将多元时间序列数据按时间对齐，减少时间戳的重复存储，并开发了一套高效的存储引擎，实现了数据有序存储、数据分区分级、数据预取、稀疏索引等丰富功能。

数据吞吐量和查询时延是评价一个时序数据库性能的关键指标，openGemini经过大量优化后，整体性能表现出色。下方的测试结果显示了openGemini 从4U扩展到32U的性能表现，可以看出：

从4U到32U，openGemini写入性能可以线性扩展（扩展比为0.8）
从4U的155万Metrics/s平稳增长到32U的560万Metrics/s

在业界流行的时序数据库Benchmark测试工具TSBS的15个标准测试场景中，openGemini性能表现优异，15个标准测试场景可分为简单查询、中等查询和复杂查询三大类型：

简单查询：少量或者没有使用函数或表达式，查询时间范围在24小时以内，查询时延数毫秒。
中等查询：使用多个函数或表达式，查询时间范围在几周内，并且使用了GROUP BY分组，查询时延在数十毫秒到数百毫秒。
复杂查询：使用了多个聚合函数或表达式，按月或者按年为时间范围查询，查询时延通常可能会达分钟级。

openGemini相比开源InfluxDB，简单查询场景提升2倍多，中等查询场景提升4倍多；复杂查询场景下，openGemini依然可以快速响应，然而InfluxDB则出现OOM无法工作。

3.2丰富的数据分析能力

时序数据采集的最终目的是让数据被理解和使用，数据分析是其中关键的一环。时序数据库具有广泛的应用场景，使得时序应用日益多样化，数据分析需求在不断变化和增加，这要求时序数据库能快速应对不同数据分析需求，不断丰富内部的分析算子。

与此同时，传统的大数据分析工具（比如Spark、Flink等）过于厚重，部署成本高；搭配时序数据库进行分析时，离数据较远，数据分析实时性无法满足要求。随着物联网、传感器技术、5G的快速发展，迫切需要一种更有效的方法来处理海量、高速的时序数据，而用户真正需要的是一个能够以最低时延和最高吞吐量处理、检测和预测信息的系统，这样的系统在业界开源的数据库中少之又少。

相对应的，openGemini具有丰富的聚合分析算子（COUNT、SUM、MAX、MIN等共计60余种）、统计分析算子（PERCENTILE分位数、HISTOGRAM直方图等）、异常检测和预测算子（内置13种异常检测器，可覆盖常见的离群点、数值变化、阈值、持续上升下降等时序异常场景）。其中基于AI的异常检测的实现过程中，充分考虑了数据分布，提供近数据计算能力，能提升端到端数据分析和计算效率。

3.3降低成本，增加效益

openGemini 源于华为云GaussDB for Influx，GaussDB for Influx已经在华为云许多内部重要业务上使用，通过技术的升级，替代了Cassandra、InfluxDB、HBase、OpenTSDB等多套系统部署，实现了降本增效。

openGemini在承载相同业务场景下，较原系统端到端时延减低50%，CPU资源上可以节省68%，内存资源可以节省50%，硬盘资源可以节省90%以上。

四、为什么开源

开源是开放创新的有效手段，是数字时代的事实标准和专利。DB-Engines的统计数据表明，从 2021 年开始，开源数据库的流行指数已经超过商用数据库，开源时序数据库占比更是高达80%，openGemini时序数据库作为基础软件，也需要拥抱开源。

源于开源，回馈开源

openGemini时序数据库经历了几个发展阶段。从最初基于开源InfluxDB的架构改造，到应对内部数十亿海量时间线挑战，再到自研数据库引擎，一路打磨，经受住了华为云内、外部100余家用户的生产检验。openGemini现在以及将来取得的成绩，都离不开开源社区肥沃的土壤。openGemini的开源，希望可以倡导开源文化，以实际行动回馈开源。

开放合作，共建共享

我们深知独木难成林，百川聚江海的道理，但开源生态建设并非朝夕之功，也并非一个企业自身就能完成，而是一个聚沙成塔、集腋成裘的过程，唯有携手伙伴共建、共享，方能打造出健康繁荣的开源生态。我们希望把openGemini社区作为一个支点、一个开放创新平台，通过释放华为云内部多年积累的时序数据库技术研发和应用的实践经验，吸引更多的伙伴与开发者参与贡献，不断改善openGemini生态和竞争力，持续打造开放的技术产品和应用生态，使能物联网、工业互联网等行业数字化转型，促进产业协同，以应对生存环境愈发复杂，行业竞争愈发激烈，业务发展愈发多样的数字化时代。

版本说明

本次发布的v0.1.0是具有完整时序数据库功能的版本，详细信息请点击查看用户指南。

v0.1.0版本主要特性：

支持单机和分布式集群部署，高性能和可扩展
支持证书验证和用户鉴权
完全兼容InfluxDB Line Protocol v1、InfluxQL
支持Prometheus远程数据读写
支持Linux操作系统
丰富的内核运行指标（60余项），提供指标监测的工具ts-monitor

详细版本路标已发布，请前往社区查阅。

加入社区

为方便了解和参与社区贡献，我们为您准备了贡献指南。

其他

社区合作、寻求社区帮助、相关问题咨询渠道：

推荐在GitHub上给社区提交Issue和Discussion
发送邮件到openGemini社区邮箱（community.ts@opengemini.org），1-2个工作日内给与回复
加入openGemini社区微信交流群（微信添加 xiangyu5632，备注openGemini）
加入Slack。

openGemini官网主页: http://www.openGemini.org/

openGemini开源地址: https://github.com/openGemini

点击关注，第一时间了解华为云新鲜技术~

有关openGemini内核源码正式对外开源的更多相关文章

UE4 源码阅读：从引擎启动到Receive Begin Play - 2
一、引擎主循环UE版本：4.27一、引擎主循环的位置：Launch.cpp:GuardedMain函数二、、GuardedMain函数执行逻辑：1、EnginePreInit：加载大多数模块int32ErrorLevel=EnginePreInit(CmdLine);PreInit模块加载顺序：模块加载过程：（1）注册模块中定义的UObject，同时为每个类构造一个类默认对象（CDO，记录类的默认状态，作为模板用于子类实例创建）（2）调用模块的StartUpModule方法2、FEngineLoop::Init()1、检查Engine的配置文件找出使用了哪一个GameEngine类（UGame
ruby - 为什么 Object 在 Ruby 中既包含内核又继承它？ - 2
在Ruby(1.8.X)中为什么Object既继承了内核又包含了内核？仅仅继承还不够吗？irb(main):006:0>Object.ancestors=>[Object,Kernel]irb(main):005:0>Object.included_modules=>[Kernel]irb(main):011:0>Object.superclass=>nil请注意，在Ruby1.9中情况类似(但更简洁):irb(main):001:0>Object.ancestors=>[Object,Kernel,BasicObject]irb(main):002:0>Object.included
elasticsearch源码关于TransportSearchAction【阶段三】 - 2
1.回顾.TransportServicepublicclassTransportServiceextendsAbstractLifecycleComponentTransportService：方法：1publicfinalTextendsTransportResponse>voidsendRequest(finalTransport.Connectionconnection,finalStringaction,finalTransportRequestrequest,finalTransportRequestOptionsoptions,TransportResponseHandlerT>
(附源码)vue3.0＋.NET6实现聊天室(实时聊天SignalR) - 2
参考文章搭建文章gitte源码在线体验可以注册两个号来测试演示图：一.整体介绍　　介绍SignalR一种通讯模型Hub(中心模型，或者叫集线器模型)，调用这个模型写好的方法，去发送消息。　　内容有：　　　　①：Hub模型的方法介绍　　　　②：服务器端代码介绍　　　　③：前端vue3安装并调用后端方法　　　　④：聊天室样例整体流程：1、进入网站->调用连接SignalR的方法2、与好友发送消息->调用SignalR的自定义方法前端通过，signalR内置方法.invoke() 去请求接口3、监听接受方法（渲染消息）通过new signalR.HubConnectionBuilder().on
python - 开源 Twitter 克隆(在 Ruby/Python 中) - 2
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭6年前。Improvethisquestion是否有任何用Ruby或Python编写的生产就绪的开源Twitter克隆？我对功能丰富的实现更感兴趣，而不仅仅是简单的Twitter消息(例如:API、FBconnect、通知等)谢谢!
ruby - 为什么会存在 Ruby 模块内核？ - 2
在Ruby中的面向对象设计一书中，SandiMetz说模块的主要用途是用它们实现鸭子类型，并将它们包含在每个需要的类中。为什么RubyKernel是包含在Object中的模块？据我所知，它没有在其他任何地方使用。使用模块有什么意义？最佳答案理想情况下，Methodsinspirit(适用于任何对象)，即使用接收器的方法，应在Object上定义上课，而Procedures(全局提供)，即忽略接收者的方法，应该收集在Kernel中模块。Kernel#puts，例如不对其接收者做任何事情；它不调用它的私有(private)方法，它不访
IDEA 2023.1 正式发布，新特性简介 - 2
昨晚看到IDEA官推宣布IntelliJIDEA2023.1正式发布了。简单看了一下，发现这次的新版本包含了许多改进，进一步优化了用户体验，提高了便捷性。至于是否升级最新版本完全是个人意愿，如果觉得新版本没有让自己感兴趣的改进，完全就不用升级，影响不大。软件的版本迭代非常正常，正确看待即可，不持续改进就会慢慢被淘汰！根据官方介绍：IntelliJIDEA2023.1针对新的用户界面进行了大量重构，这些改进都是基于收到的宝贵反馈而实现的。官方还实施了性能增强措施，使得Maven导入更快，并且在打开项目时IDE功能更早地可用。由于后台提交检查，新版本提供了简化的提交流程。IntelliJIDEA
Cesium源码解析一（terrain文件的加载、解析与渲染全过程梳理） - 2
快速导航（持续更新中…）Cesium源码解析一（terrain文件的加载、解析与渲染全过程梳理）Cesium源码解析二（metadataAvailability的含义）Cesium源码解析三（metadata元数据拓展中行列号的分块规则解析）Cesium源码解析四（Quantized-Mesh(.terrain)格式文件在CesiumJS和UE中加载情况的对比）目录1.前言2.本篇的由来3.terrain文件的加载3.1更新环境3.2更新和执行渲染命令3.3数据优化3.4结束当前帧4.总结1.前言目前市场上三维比较火的实现方案主要有两种，b/s的方案主要是Cesium，c/s的方案主要是u
Gradle 自动化构建开源工具 - 2
文章目录写在前面1、下载与安装（windows）1.1、idea中配置gradle2、基础知识（Gradle6.9为例）2.1、Gradle脚本语法2.1.1、dependsOn2.1.2、创建动态任务2.1.3、增加任务行为2.1.4、参数2.1.5、Ant任务2.1.6、方法2.1.7、默认任务2.1.6、依赖任务的不同输出3、java项目中使用3.1、在已有项目中构建gradle3.2、在新建项目时构建gradle（idea）3.3、gradle项目目录结构3.4、build.gradle3.4.1、plugins3.4.2、repositories3.4.3、dependencies3
驱动开发：内核无痕隐藏自身分析 - 2
在笔者前面有一篇文章《驱动开发：断链隐藏驱动程序自身》通过摘除驱动的链表实现了断链隐藏自身的目的，但此方法恢复时会触发PG会蓝屏，偶然间在网上找到了一个作者介绍的一种方法，觉得有必要详细分析一下他是如何实现的进程隐藏的，总体来说作者的思路是最终寻找到MiProcessLoaderEntry的入口地址，该函数的作用是将驱动信息加入链表和移除链表，运用这个函数即可动态处理驱动的添加和移除问题。MiProcessLoaderEntry(pDriverObject->DriverSection,1)添加MiProcessLoaderEntry(pDriverObject->DriverSection,