sequence：从认识到会使用，今儿给你讲的透透的

华为云开发者社区 2023-03-28 原文

摘要：本文简单介绍sequence的使用场景及如何修改sequence的cache值提高性能。

本文分享自华为云社区《GaussDB(DWS)关于sequence的那些事》，作者：Arrow0lf 。

什么是sequence

sequence，也称作序列，是用来产生唯一整数的数据库对象。序列的值按照一定的规则自增/自减，一般常被用作主键。GaussDB(DWS)中，创建sequence时会同时创建一张同名的元数据表，用来记录sequence相关的信息，例如：

postgres=# create sequence seq;
CREATE SEQUENCE
postgres=# select * from seq;
 sequence_name | last_value | start_value | increment_by | max_value | min_value | cache_value | log_cnt | is_cycled | is_called | uuid 
---------------+------------+-------------+--------------+---------------------+-----------+-------------+---------+-----------+-----------+---------
 seq           | -1 | 1 | 1 | 9223372036854775807 | 1 | 1 | 0 | f         | f         | 1600007
(1 row)

其中，sequence_name表示sequence的名字，last_value当前无意义，start_value表示sequence的初始值，increment_by表示sequence的步长，max_value表示sequence的最大值，min_value表示最小值，cache_value表示为了快速获取下一个序列值而预先存储的sequence值个数（定义cache后不能保证sequence值的连续性，会产生空洞，详见下文）。log_cnt表示WAL日志记录的sequence值个数，由于在DWS中sequence是从GTM获取和管理，因此log_cnt无实际意义；is_cycled表示sequence在达到最小或最大值后是否循环继续，is_called表示该sequence是否已被调用（仅表示在当前实例是否被调用，例如在cn_5001上调用之后，cn_5001上该原数据表的值变为t，cn_5002上该字段仍为f），uuid代表该sequence的唯一标识。

GaussDB(DWS)中，通过GTM（Global Transaction Manager，名为全局事务管理器）负责生成和维护全局事务ID、事务快照、Sequence等需要全局唯一的信息。sequence在DWS中的创建流程如下图所示：

具体过程为：

接受SQL命令的CN从GTM申请UUID；
GTM返回一个UUID；
CN将拿到的UUID与用户创建的sequenceName绑定；
CN将绑定关系下发给其他节点上，其他节点同步创建sequence元数据表；
CN将UUID 和sequence的startID发送到GTM端，在GTM行进行永久保存。

因此，sequence的维护和申请实际是在GTM上完成的。当申请nextval，每个执行nextval调用的实例会根据该sequence的uuid到GTM上申请序列值，每次申请的序列值范围与cache有关，只有当cache消耗完之后才会继续到GTM上申请。因此，增大sequence的cache有利于减少CN/DN与GTM通信的次数。接下来，将详细介绍sequence在DWS中的使用场景和注意事项。

如何创建sequence

GaussDB(DWS)中，有两种创建sequence的方法：

方法一：直接创建sequence，并通过nextval调用，举例：

postgres=# create sequence seq;
CREATE SEQUENCE
postgres=# insert into t_dest select nextval('seq'),* from t_src;
INSERT 0 0

方法二：建表时使用serial类型，会自动创建一个sequence，并且会将该列的默认值设置为nextval，举例：

postgres=# create table test(a int, b serial) distribute by hash(a);
NOTICE:  CREATE TABLE will create implicit sequence "test_b_seq" for serial column "test.b"
CREATE TABLE
postgres=#\d+ test
 Table "public.test"
 Column | Type |                    Modifiers                     | Storage | Stats target | Description 
--------+---------+--------------------------------------------------+---------+--------------+-------------
 a      | integer | | plain   | | 
 b      | integer | not null default nextval('test_b_seq'::regclass) | plain   | | 
Has OIDs: no
Distribute By: HASH(a)
Location Nodes: ALL DATANODES
Options: orientation=row, compression=no

本例中，会自动创建一个名为test_b_seq的sequence。其实严格来讲，serial类型是一个“伪类型”，本质上，serial其实是int类型，只不过在创建时会同时创建一个sequence，并与该列相关联，本质上，方法二中的例子与下面的写法等价：

postgres=# create table test(a int, b int) distribute by hash(a);
CREATE TABLE
postgres=# create sequence test_b_seq owned by test.b;
CREATE SEQUENCE
postgres=# alter sequence test_b_seq owner to jerry;  --jerry为test表的属主，如果当前用户即为属主，可不执行此语句
ALTER SEQUENCE
postgres=# alter table test alter b set default nextval('test_b_seq'), alter b set not null;
ALTER TABLE
postgres=# \d+ test
 Table "public.test"
 Column | Type |                    Modifiers                     | Storage | Stats target | Description 
--------+---------+--------------------------------------------------+---------+--------------+-------------
 a      | integer | | plain   | | 
 b      | integer | not null default nextval('test_b_seq'::regclass) | plain   | | 
Has OIDs: no
Distribute By: HASH(a)
Location Nodes: ALL DATANODES
Options: orientation=row, compression=no

sequence在业务中的常见用法

sequence在业务中常被用作在导入时生成主键或唯一列，常见于数据迁移场景。不同的迁移工具或业务导入场景使用的入库方法不同，常见的方法主要可以分为copy和insert。对于seqeunce来讲，这两种场景在处理时略有差别。

场景一：insert下推场景

postgres=# create table test1(a int, b serial) distribute by hash(a);
NOTICE:  CREATE TABLE will create implicit sequence "test1_b_seq" for serial column "test1.b"
CREATE TABLE
postgres=# 
postgres=# create table test2(a int) distribute by hash(a);
CREATE TABLE
postgres=# 
postgres=# 
postgres=# explain verbose insert into test1(a) select a from test2;
                                           QUERY PLAN 
------------------------------------------------------------------------------------------------
  id |             operation              | E-rows | E-distinct | E-memory | E-width | E-costs 
 ----+------------------------------------+--------+------------+----------+---------+---------
 1 | ->  Streaming (type: GATHER) | 1 | | | 4 | 18.41 
 2 | -> Insert on public.test1      | 40 | | | 4 | 18.25 
 3 | ->  Seq Scan on public.test2 | 40 | | 1MB      | 4 | 16.24 
 Targetlist Information (identified by plan id) 
 ---------------------------------------------------------
 1 --Streaming (type: GATHER)
         Node/s: All datanodes
 3 --Seq Scan on public.test2
         Output: test2.a, nextval('test1_b_seq'::regclass)
         Distribute Key: test2.a
 ====== Query Summary ===== 
 -------------------------------
 System available mem: 4669440KB
 Query Max mem: 4669440KB
 Query estimated mem: 1024KB
 Parser runtime: 0.045 ms
 Planner runtime: 12.622 ms
 Unique SQL Id: 972921662
(22 rows)

由于在nextval在insert场景下可以下推到DN执行，因此，不管是使用default值的nextval，还是显示调用nextval，nextval都会被下推到DN执行，在上例的执行计划中也能看出，nextval的调用在sequence层，说明是在DN执行的。此时，DN直接向GTM申请序列值，且各DN并行执行，因此效率相对较高。

场景二：copy场景

在业务开发过程中，入库方式除了insert外，还有copy入库的场景。此类场景多见于将文件内容copy入库、使用CopyManager接口入库等，此外，CDM数据同步工具，其实现方式也是通过copy的方式批量入库。在copy入库过程中，如果copy的目标表使用了默认值，且默认值为nextval，处理过程如下：

此场景下，由CN负责向GTM申请序列值，因此，当sequence的cache值较小，CN会频繁和GTM建联并申请nextval，出现性能瓶颈。下面，将针对此种场景说明业务上的性能表现和优化方法。

sequence相关的典型优化场景

业务场景：某业务场景使用CDM数据同步工具做数据迁移，从源端入库目标端GaussDB(DWS)。导入速率与经验值相差较大，业务将CDM并发从1调整为5，同步速率仍无法提升。查看语句执行情况，除copy入库外，其余业务均正常执行，无性能瓶颈，且观察无资源瓶颈，因此初步判断为该业务自身存在瓶颈，查看该表copy相关的作业等待视图情况：

如图所示，由于CDM作业起了5个并发，因此在活跃视图中可以看到5个copy语句，根据这5个copy语句对应的query_id查看等待视图情况如上图所示。可以看到，这5个copy中，同一时刻，仅有1个copy在向GTM申请序列值，其余的copy在等待轻量级锁。因此，即使作业中开启了5并发在运行，实际效果比1并发并不能带来明显提升。

问题原因：目标表在建表时使用了serial类型，默认创建的sequence的cache为1，导致在并发copy入库时，CN频繁与GTM建联，且多个并发之间存在轻量锁争抢，导致数据同步效率低。

解决方案：此种场景下可以调大sequence的cache值，防止频繁GTM建联带来的瓶颈。本例中，业务每次同步的数据量在10万左右，综合其他适用场景评估，将cache值修改为10000（实际使用时应根据业务设置合理的cache值，既能保证快速访问，又不会造成序列号浪费）。

当前GaussDB(DWS)不支持通过alter sequence的方式修改cache值，那么如何修改已有sequence的cache值呢？已第二节中方法二的test表为例，可以通过如下方式达到修改cache的目的：

-- 解除当前sequence与目标表的关联关系
alter sequence test_b_seq owned by none;
alter table test alter b drop default;
-- 记录当前的seqeunce值并删除sequence
select nextval('test_b_seq'); --记录该值，作为新建sequence的start value
drop sequence test_b_seq;
-- 新建seqeunce并绑定目标表
create sequence test_b_seq START with xxx cache 10000 owned by t.b; -- xxx替换为上一步查到的nextval
alter sequence test_b_seq owner to jerry; --jerry为test表的属主，如果当前用户即为属主，可不执行此语句
alter table test alter b set default nextval('test_b_seq'), alter b set not null;

点击关注，第一时间了解华为云新鲜技术~

透透今儿 span color style 其他数据库

有关sequence：从认识到会使用，今儿给你讲的透透的的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库，所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po