草庐IT

天!转转MySQL机房迁移半小时结束战斗?

黄建波 2023-03-28 原文

1 背景

作为国内领先的循环经济产业公司,随着转转业务的不断发展,基础服务设施已然到了“蜕壳”的阶段。

目前在用的IDC资源已趋于饱和,难以满足后续的发展需求。

同时,随着腾讯云提供的负载均衡技术迭代,需要将TGW(Tencent GateWay)替换为CLB(Cloud Load Balancer)。

经过运维同学近半年时间的筹划和建设,全新IDC和负载均衡技术(CLB)已完成升级建设并正式投产,MySQL、TiDB、Redis等公共基础服务需要有序进行迁移切换。对于MySQL迁移工作,面临集群数量多、操作影响大、操作要求高等一系列难题,需要充分调研现状并制定合理的方案,进一步降低对业务服务的感知。

2 迁移方案选择

2.1 方案一:扩容+主从切换

通过备份扩容出足够数量的从库,再依赖MHA(Master High Availability)系统发起主动切换,最终下线旧节点完成集群拓扑变更。

2.2 方案二:级联切换

通过备份搭建级联集群,完成新集群数据同步,再通过断级联+域名切换的方式完成集群变更。

2.3 方案对比

  • 方案一:开发量小,扩容和MHA切换都比较容易实现。但单个集群MHA切换时间>30s,对业务的影响时间过长,且机房迁移要求具备大规模切换能力,这就对MHA系统要求极高,就算是大厂自行维护的高可用系统,恐怕也难以保证在短时间内依靠高可用系统完成百余套集群的无损切换。
  • 方案二:原理简单,切换速度快,单个集群切换时间<10s,对业务影响小。但需要大量自动化开发,例如自动扩容、自动搭建级联集群、自动前/后置检查、自动切换读/写流量等,开发成本高。
落地方案的选定,重点考虑对业务的影响,哪种方案又快又稳对业务感知又小就选哪种,毫无疑问,方案二胜出。级联方案还有一个明显优势,新集群搭建过程中可以平滑升级负载均衡(CLB替换TGW)

  • 级联读流量切换示意图

  • 级联写流量切换示意图

3 如何又快又稳完成MySQL机房迁移

MySQL集群迁移切换的风险非常大,稍加操作不当就可导致整套集群不可用,极端情况下可能直接让线上服务停摆。转转线上MySQL集群数量较多,如何又快又稳完成MySQL机房迁移工作?

3.1 提前搭建级联

通过备份扩容新集群,并与老集群建立级联关系,提前搭建好所有待迁移集群级联。由于转转采用单机多实例部署的架构,新建集群时得重点考虑混合部署带来的问题,需要提前整理各集群单实例磁盘、内存占用数据。在开发自动搭建级联集群脚本时,需要同时兼顾机器负载均衡和资源成本。

限制逻辑:

  • 单机主库实例不超过5个
  • 单机从库实例不超过10个
  • 单机总实例不超过15个
  • 单机内存、磁盘使用率不超过85%
级联搭建过程:

3.2 停服

核心集群间的上下游关系错综复杂,尤其是交易库和商品库。如果停写一套集群,其他好几套关联集群也会受影响。另外,尽管当前部分业务方具备双写能力,能够应对切换停写带来的影响,但集群数量太多,并非所有业务都有足够人力成本投入额外开发。综合考虑,与其花费大量人工成本去梳理上下游关系和额外开发,不如在凌晨低峰期短暂停服,批量切换核心集群。这项决定意味着我们需要具备过硬的批量操作和恢复能力,务必将操作时间进一步缩短,给测试、开发留足验证时间,尽量减少停服时长。

3.3 批量操作自动化,关键步骤解耦

整个迁移周期内存在大量操作,需要降低人工误操作风险,同时对操作时间也有一定要求,因此,所有操作都需要实现自动化。对于关键步骤应当解耦处理,自动化模块需要能够独立运行,所有模块相互间形成闭环,当切换存在问题时能快速定位故障发生位置,及时回滚。在闭环中实现:

  • 搭建级联集群自动化
  • 前/后置检查自动化
  • 批量切读
  • 批量切写
  • 自动kill旧集群连接,检测切换后新集群连接
  • 批量下线旧集群

3.4 集群分级

我们将线上集群分为3个等级,由高到低依次为P1、P2、P3,各等级占比约为1:1:1

  • P3集群可在白天任意时间切换
  • P2集群可在晚上8点-10点操作
  • P1集群需要在凌晨停服期间操作
我们正不断推进和完善集群服务分级管理,对于达到一定规模符合等级要求的集群,我们将投入更多精力、提供更多的资源去支撑高等级集群的可靠性及性能。

3.5 切换前、后置检查

整个切换周期内,新、老集群的前、后置检查必不可少。切换前后配置不一致可能引发故障,尤其是一些关键参数配置。

前置检查:

  • 新集群vip-rshost链路连通性
  • buffer_pool_size
  • sql_mode
  • 从节点个数
  • 级联延迟
  • ...
后置检查:

  • 新、老主read_only状态
  • 新、老集群业务实时连接
  • 域名切换后是否指向新集群
  • ...

3.6 灰度切换验证

完成各项自动化代码开发后,先通过测试集群进行多轮批量切换验证,随后按照集群等级开始线上集群切换。对于P3集群,由于切换操作对业务的影响较小,但又不同于测试集群,P3切换过程中能够反馈线上大部分集群可能遇到的问题。采用灰度切换验证,摸着石头过河,把意料之外的浑水都淌一遍,不断迭代自动化脚本。

灰度切换顺序:

  • 单套切换
  • 小批量切换(<10)
  • 大批量切换(>30)
灰度切换验证期间遇到的问题:

  • 多域名问题
按标准化运维,同一集群同一角色有且仅有一个域名,但线上集群存在一套集群使用多个主库、从库域名的情况。在流量切换时,需要兼容处理多域名问题

  • cmdb信息不准确
部分老集群元数据长时间未维护,实例信息、域名指向信息可能有误。在迁移切换前,需要花精力去校对最新数据

4 写在最后

转转线上MySQL集群规模400+,需要在9月27日凌晨停服期间完成所有集群切换。P3、P2集群在停服前已完成批量切换,剩余P1核心集群累计100+,平均耗时10s/套,半小时内结束战斗。停服期间因前期已规避大部分问题,切换过程非常流畅,后续的验证、压测也均符合预期。


关于作者

黄建波,转转DBA。主要负责转转MySQL运维及数据库平台开发。

有关天!转转MySQL机房迁移半小时结束战斗?的更多相关文章

  1. ruby-on-rails - Ruby on Rails 迁移,将表更改为 MyISAM - 2

    如何正确创建Rails迁移,以便将表更改为MySQL中的MyISAM?目前是InnoDB。运行原始执行语句会更改表,但它不会更新db/schema.rb,因此当在测试环境中重新创建表时,它会返回到InnoDB并且我的全文搜索失败。我如何着手更改/添加迁移,以便将现有表修改为MyISAM并更新schema.rb,以便我的数据库和相应的测试数据库得到相应更新? 最佳答案 我没有找到执行此操作的好方法。您可以像有人建议的那样更改您的schema.rb,然后运行:rakedb:schema:load,但是,这将覆盖您的数据。我的做法是(假设

  2. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

    使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

  3. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  4. ruby-on-rails - 无法安装 mysql2 0.3.14 gem - 2

    我看到其他人也遇到过类似的问题,但没有一个解决方案对我有用。0.3.14gem与其他gem文件一起存在。我已经完全按照此处指示完成了所有操作:https://github.com/brianmario/mysql2.我仍然得到以下信息。我不知道为什么安装程序指示它找不到include目录,因为我已经检查过它存在。thread.h文件存在,但不在ruby​​目录中。相反,它在这里:C:\RailsInstaller\DevKit\lib\perl5\5.8\msys\CORE\我正在运行Windows7并尝试在Aptana3中构建我的Rails项目。我的Ruby是1.9.3。$gemin

  5. ruby - 如果满足给定条件,则结束 ruby​​ 程序 - 2

    基本上,我只是试图在满足特定条件时停止程序运行其余行。unlessraw_information.firstputs"Noresultswerereturnedforthatquery"breakend然而,在程序运行之前我得到了这个错误:Invalidbreakcompileerror(SyntaxError)执行此操作的正确方法是什么? 最佳答案 abort("Noresultswerereturnedforthatquery")unlesscondition或unlessconditionabort("Noresultswer

  6. ruby-on-rails - 在现有数据库上进行 Rails 迁移 - 2

    我正在创建一个新的Rails3.1应用程序。我希望这个新应用程序重用现有数据库(由以前的Rails2应用程序创建)。我创建了新的应用程序定义模型,它重用了数据库中的一些现有数据。在开发和测试阶段,一切正常,因为它在干净的表数据库上运行,但是当尝试部署到生产环境时,我收到如下消息:PGError:ERROR:column"email"ofrelation"users"alreadyexists***[err::localhost]:ALTERTABLE"users"ADDCOLUMN"email"charactervarying(255)DEFAULT''NOTNULL但是我在迁移中有这

  7. ruby - 如何使用 ruby​​ mysql2 执行事务 - 2

    我已经开始使用mysql2gem。我试图弄清楚一些基本的事情——其中之一是如何明确地执行事务(对于批处理操作,比如多个INSERT/UPDATE查询)。在旧的ruby-mysql中,这是我的方法:client=Mysql.real_connect(...)inserts=["INSERTINTO...","UPDATE..WHEREid=..",#etc]client.autocommit(false)inserts.eachdo|ins|beginclient.query(ins)rescue#handleerrorsorabortentirelyendendclient.commi

  8. ruby-on-rails - Ruby/Rails 中的夏令时开始和结束日期 - 2

    我正在开发一个Rails应用程序,我需要在其中找到给定特定偏移量或时区的夏令时开始和结束日期。我基本上在我的数据库中保存了从用户浏览器接收到的时区偏移量(“+3”,“-5”),我想在它出现时修改它由于夏令时的变化。我知道Time实例变量有dst?和isdst方法,如果存储在它们中的日期在夏令时与否。>Time.new.isdst=>true但是使用它来查找夏令时的开始和结束日期会占用太多资源,而且我还必须为我拥有的每个时区偏移量执行此操作。我想知道更好的方法。 最佳答案 好的,基于你所说的和@dhouty'sanswer:您希望能够

  9. ruby - 如何在 watir 测试套件结束时关闭浏览器? - 2

    使用ruby​​的watir测试网络应用程序时,浏览器最后会保持打开状态。网上的一些建议是,要进行真正的单元测试,您应该在每次测试时(在拆卸调用中)打开和关闭浏览器,但这很慢而且毫无意义。或者他们做这样的事情:defself.suites=superdefs.afterClass#Closebrowserenddefs.run(*args)superafterClassendsend但这会导致摘要输出不再显示(诸如“100次测试、100次断言、0次失败、0次错误”之类的内容仍应显示)。我怎样才能让ruby​​或watir在我的测试结束时关闭浏览器? 最佳答案

  10. ruby-on-rails - Rails 迁移中的 PostgreSQL 点类型 - 2

    我想使用PostgreSQL中的point类型。我已经完成了:railsgmodelTestpoint:point最终的迁移是:classCreateTests当我运行时:rakedb:migrate结果是:==CreateTests:migrating====================================================--create_table(:tests)rakeaborted!Anerrorhasoccurred,thisandalllatermigrationscanceled:undefinedmethod`point'for#/hom

随机推荐