漫谈“数据拆分层次对比”

韩锋 2023-03-28 原文

当企业数据达到一个规模后，不得不面临数据拆分的问题。使用分布式数据库是一个相对“简单”的选择。通过分布式架构可以支撑海量规模，也避免的拆分所带来的各种“麻烦”。当然，分布式数据库也不是“银弹”，会有其适用的场景。如在分布式数据库下无法解决的话，仍然是需要面临拆分问题。但如何拆分数据是一个令人头疼的问题，除了要结合业务拆分外，具体拆分的粒度也是需要关注的。可以在实例级、库级别、表级别、分区级进行拆分，不同层次的拆分各有其利弊。下文针对不同的拆分方式，进行简单的对比分析。

1、拆分层次：实例级

在实例级拆分，即通过将原有数据拆分到多个数据库实例来承载更大规模。

架构

从架构角度来看，在实例级拆分无疑是比较彻底的，通过增加更多地实例，可以有效增加计算、存储资源。很多分布式数据库的架构，也是采用上层分布式计算层与下层单机存储引擎相结合，原理上就是在架构层拆分更多实例来支撑。每个实例都承载了一部分数据，这种情况会在一定程度上增加数据耦合，需要全部实例可用，才能提供完整的数据服务。

研发

从研发角度来看，实例级拆分无疑是很大的变化，从单一数据源变为多个数据源。针对业务开发来说，不得不去解决多数据源管理及少量跨实例的问题。一般可通过自研或引入三方的数据库访问层来解决问题，减少对开发的影响。针对数据分析类需求，更加建议将数据汇聚到AP层进行处理。无论是哪方面的调整，工作量及工作难度都较之前架构增大及复杂很多。

运维

从运维角度来看，实例级拆分意味着很多运维工作的变化。从资源管理、实例管理、备份恢复、系统优化等，都要从单实例变更为多实例。其划分为多个实例后，还需解决部分数据耦合关系所带来的问题。例如，如何实现跨实例的一致性备份、如何解决监控指标的全局汇总等。针对数据对象本身的管理，则更为复杂。前者多通过运维平台来解决多实例管理带来的工作量增多等问题；后者则通过数据库中间层可有效解决，针对多实例从逻辑上视同单一实例。

安全

从安全角度来看，实例级拆分无疑是不利的。需要解决多实例下或者说分散条件下的安全统一管理、访问能力。通过统一的安全平台或安全框架是可以在一定程度上解决的。

2、拆分层次：库级

在库级拆分，即通过将原有数据拆分到多个数据库中。不同数据库叫法不太统一，以MySQL为例就是"show databases"看到的结果。通常也被称为不同的Schema。

架构

从架构角度来看，这种拆分方式只是在逻辑层面的一种拆分，并没有真实增加物理资源，因而对计算、存储的扩展上，达不到什么效果。从数据耦合上，还有所增加。这种拆分方式虽然没有增加资源，但是可为未来的扩展打下一定基础。例如，后续拆分给到不同实例，可以简单将某个Schema拆分出去即可，相对简化了很多。

研发

从研发角度来看，较实例级拆分要轻些，需要增加对多Schema的支持。必要的多数据源管理或部分跨Schema的问题时需要解决的。分析类的需求，可通过跨Schema的关联完成。在工作量上有一定增加，但难度相对不大。通过也可以自研或引入三方的数据库访问层来解决。

运维

从运维角度来看，应为没有引入其他实例，从日常运维、备份恢复等没什么变化。对于对象管理，是需要考虑多Schema的支持，至于性能上通过拆分Schema是否有提升不确定。使用更小的访问规模，也许性能有提升；但由于此而引入更多的关联查询，可能造成性能下降。

安全

从安全角度来看，这种方式还是会造成一定管理的复杂度。管理成本的提高跟前面实例相差不大。

3、拆分层次：表级

表级拆分，是指将原来的单个表，拆成多个分表（表名都发生变化）。物理上从单个对象拆分为多个对象，逻辑上有时可通过诸如视图等重新装饰出一个对象。

架构

从架构角度来看，这种拆分方式是一种逻辑上的拆分，没有引入更多资源。从数据耦合度看，反而变差了。

研发

从研发角度来看，与前面库级拆分类似，都还存在一定的工作量，但相对难度不大。也多可以通过自研或引入三方数据库访问层来解决。

运维

从运维角度来看，与前面库级拆分也类似，差别不大。

安全

从安全角度来看，与前面库级拆分也类似，差别不大。

4、拆分层次：分区级

分区是数据库层面支持的一种技术，通过将数据划分在表中的多个分区，达到数据大而化小的效果。这是一种数据库原生内置的优化能力，较之前的实例级、库级、对象级，更为轻量，且无更多感知。

架构

从架构角度来看，这种方式没有扩展现有资源，与拆分前的架构几乎没有区别。

研发

从研发角度来看，几乎没有变化。将数据存在分区中，从业务层可做到无感。原有的开发逻辑，一般都可以正常使用，只是在个别地方可能需要有所调整。

运维

从运维角度来看，资源、实例层面管理没有变化。差别较大的就是对象管理，分区级拆分提供更为灵活的管理方式，支持如分区合并、分裂、交换、清理等能力，可方便对象管理动作。从性能上看，使用分区后，数据库优化器将针对分区做更多优化动作，相对会有不错的性能提升。当然，这里需要注意下，不同数据库在分区上面的能力差异较大，有些数据库是做的相对不完善，分区可能存在较多限制。

安全

从安全角度来看，分区级拆分与拆分前没有太大变化。

作者介绍

韩锋，51CTO社区编辑，CCIA（中国计算机协会）常务理事，前Oracle ACE，腾讯TVP，阿里云MVP，dbaplus等多家社群创始人或专家团成员。有着丰富的一线数据库架构、软件研发、产品设计、团队管理经验。曾担任多家公司首席DBA、数据库架构师等职。在云、电商、金融、互联网等行业均有涉猎，精通多种关系型数据库，对NoSQL及大数据相关技术也有涉足，实践经验丰富。曾著有数据库相关著作《SQL优化最佳实践》、《数据库高效优化》。

漫谈 ldquo span data-id style 数据库$其他数据库分布式数据库$数据拆分层次

有关漫谈“数据拆分层次对比”的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 如何在 Ruby 中拆分参数字符串 Bash 样式？ - 2
我正在为一个项目制作一个简单的shell，我希望像在Bash中一样解析参数字符串。foobar"helloworld"fooz应该变成:["foo","bar","helloworld","fooz"]等等。到目前为止，我一直在使用CSV::parse_line，将列分隔符设置为""和.compact输出。问题是我现在必须选择是要支持单引号还是双引号。CSV不支持超过一个分隔符。Python有一个名为shlex的模块:>>>shlex.split("Test'helloworld'foo")['Test','helloworld','foo']>>>shlex.split('Test"
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - 是否有用于序列化和反序列化各种格式的对象层次结构的模式？ - 2
给定一个复杂的对象层次结构，幸运的是它不包含循环引用，我如何实现支持各种格式的序列化？我不是来讨论实际实现的。相反，我正在寻找可能会派上用场的设计模式提示。更准确地说:我正在使用Ruby，我想解析XML和JSON数据以构建复杂的对象层次结构。此外，应该可以将该层次结构序列化为JSON、XML和可能的HTML。我可以为此使用Builder模式吗？在任何提到的情况下，我都有某种结构化数据-无论是在内存中还是文本中-我想用它来构建其他东西。我认为将序列化逻辑与实际业务逻辑分开会很好，这样我以后就可以轻松支持多种XML格式。最佳答案我最
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
STM32读取串口传感器数据（颗粒物传感器，主动上传） - 2
文章目录1.开发板选择*用到的资源2.串口通信（个人理解）3.代码分析（注释比较详细）1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子，不过代码大概在F103系列的板子上都可以运行，我试过在野火103的霸道板上也可以，主要看一下串口对应的引脚一不一样就行了，不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源，采集数据一个，串口通信一个，板子对应引脚如下：串口1，TX：PA9，RX：PA10串口2，TX：PA2，RX：PA32.串口通信（个人理解）我就从串口采集传感器数据这个过程说一下我自己的理解，