5个高并发导致数仓资源类报错分析

华为云开发者社区 2023-03-28 原文

摘要：集群运行过程中，有时候会执行并发量比较高的业务场景，一些数据库没有为这种高并发作业配置合适的参数，会导致作业大量报错，这篇文章让你玩转并发作业。

本文分享自华为云社区《【玩转PB级数仓GaussDB(DWS)】在线运维 - 高并发导致资源类报错分析解决》，作者：323老四。

集群运行过程中，有时候会执行并发量比较高的业务场景，一些数据库没有为这种高并发作业配置合适的参数，会导致作业大量报错，这篇文章让你玩转并发作业。

【报错信息一】

客户端返回以下类似报错

FATAL:  Already too many clients, active/non-active/reserved: 800/19/3.

--这种报错是因为客户端连接数超过了CN最大连接数

【解决办法】

gs_guc set -Z coordinator -Z datanode -N all -I all -c "max_connections=2000"

然后重启集群

其中max_connections不能调节过大按照实际需要调节，过大会预占过多内存。

【报错信息二】

客户端或者日志有以下报错

has no available slot, the number of slot in use reaches upper limit!

--这种报错是因为CN与其它实例（CN/DN）之间的连接数超过了参数控制

【解决办法】

gs_guc set -Z coordinator -N all -I all -c " max_pool_size=2000"
gs_guc set -Z datanode -N all -I all -c " max_pool_size=10000"

然后重启集群

由于DN数一般大于CN数量很多，所以max_pool_size参数DN设置比较大。

【报错信息三】

客户端或者日志有以下报错

Cannot get stream index, maybe comm_max_stream is not enough

--这种报错是因为数据库中的数据流数大于了TCP代理通信库或SCTP通信库支持的最大并发数据流数

【解决办法】

gs_guc set -Z coordinator -Z datanode -N all -I all -c "comm_max_stream =8000"

然后重启集群

该参数值必须大于并发数*每并发平均stream算子数*（smp的平方）。

【报错信息四】

客户端或者日志有以下报错

maximum number of prepared transactions reached

--这种报错是因为数据库中同时处于"预备"状态的事务的数目超过了上限

【解决办法】

gs_guc set -Z coordinator -N all -I all -c "max_prepared_transactions =2000"
gs_guc set -Z datanode -N all -I all -c "max_prepared_transactions =8000"

然后重启集群

该参数值必须大于max_connections。

【报错信息五】

客户端或者日志有以下报错

Resource temporarily unavailable

--这种报错是因为当数据库实例使用的线程数超过了上限

【解决办法】

合理增大设置当前OS 用户的max user processes

附：在/etc/security/limits.conf配置文件中写入

*          soft    nproc 100000
*          hard    nproc 100000

实际设置值根据OS以及数据库实际使用状况设置。

需要注意的是设置完实例没法立即生效，需要先重启每个节点的om_monitor 进程：

ps -ef | grep om_monitor | grep -v grep | awk '{print $2}' | xargs kill -9

然后重启数据库，使实例参数生效，再进程检查，PID为某一CN或者DN的进程号，需要Soft Limit 与Hard Limit均生效：

cat /proc/PID/limits
Limit                     Soft Limit           Hard Limit           Units
Max cpu time              unlimited            unlimited            seconds
Max file size             unlimited            unlimited            bytes
Max data size             unlimited            unlimited            bytes
Max stack size            8388608              unlimited            bytes
Max core file size        unlimited            unlimited            bytes
Max resident set          unlimited            unlimited            bytes
Max processes             unlimited            unlimited            processes
Max open files            1000000 1000000              files
Max locked memory         unlimited            unlimited            bytes
Max address space         unlimited            unlimited            bytes
Max file locks            unlimited            unlimited            locks
Max pending signals       522824 522824               signals
Max msgqueue size         819200 819200               bytes
Max nice priority         0 0
Max realtime priority     0 0
Max realtime timeout      unlimited            unlimited            us

点击关注，第一时间了解华为云新鲜技术~

个高高 span color style MySQL

有关5个高并发导致数仓资源类报错分析的更多相关文章

ruby - 安装 Ruby 时遇到问题(无法下载资源 "readline--patch") - 2
当我尝试安装Ruby时遇到此错误。我试过查看this和this但无济于事➜~brewinstallrubyWarning:YouareusingOSX10.12.Wedonotprovidesupportforthispre-releaseversion.Youmayencounterbuildfailuresorotherbreakages.Pleasecreatepull-requestsinsteadoffilingissues.==>Installingdependenciesforruby:readline,libyaml,makedepend==>Installingrub
ruby-on-rails - Rails 3，嵌套资源，没有路由匹配 [PUT] - 2
我真的为这个而疯狂。我一直在搜索答案并尝试我找到的所有内容，包括相关问题和stackoverflow上的答案，但仍然无法正常工作。我正在使用嵌套资源，但无法使表单正常工作。我总是遇到错误，例如没有路线匹配[PUT]"/galleries/1/photos"表格在这里:/galleries/1/photos/1/edit路线.rbresources:galleriesdoresources:photosendresources:galleriesresources:photos照片Controller.rbdefnew@gallery=Gallery.find(params[:galle
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
Ruby 守护进程导致 ActiveRecord 记录器 IOError - 2
我目前正在用Ruby编写一个项目，它使用ActiveRecordgem进行数据库交互，我正在尝试使用ActiveRecord::Base.logger记录所有数据库事件具有以下代码的属性ActiveRecord::Base.logger=Logger.new(File.open('logs/database.log','a'))这适用于迁移等(出于某种原因似乎需要启用日志记录，因为它在禁用时会出现NilClass错误)但是当我尝试运行包含调用ActiveRecord对象的线程守护程序的项目时脚本失败并出现以下错误/System/Library/Frameworks/Ruby.frame
ruby - 从另一个私有(private)方法中使用 self.xxx() 调用私有(private)方法 xxx，导致错误 "private method ` xxx' called” - 2
我正在尝试获得良好的Ruby编码风格。为防止意外调用具有相同名称的局部变量，我总是在适当的地方使用self.。但是现在我偶然发现了这个:classMyClass上面的代码导致错误privatemethodsanitize_namecalled但是当删除self.并仅使用sanitize_name时，它会起作用。这是为什么？最佳答案发生这种情况是因为无法使用显式接收器调用私有(private)方法，并且说self.sanitize_name是显式指定应该接收sanitize_name的对象(self)，而不是依赖于隐式接收器(也是
ruby - Chef LW 资源属性默认值如何引用另一个属性？ - 2
我正在尝试将一个资源属性的默认值设置为另一个属性的值。我正在为我正在构建的tomcat说明书定义一个资源，其中包含以下定义。我想要可以独立设置的“名称”和“服务名称”属性。当未设置服务名称时，我希望它默认为为“名称”提供的任何内容。以下不符合我的预期:attribute:name,:kind_of=>String,:required=>true,:name_attribute=>trueattribute:service_name,:kind_of=>String,:default=>:name注意第二行末尾的“:default=>:name”。当我在Recipe的新block中引用我
ruby-on-rails - 获取并发布相同匹配项的请求 - 2
在我的路线文件中我有:match'graphs/(:id(/:action))'=>'graphs#(:action)'如果是GET请求(工作)或POST请求(不工作)，我想匹配它我知道我可以使用以下方法在资源中声明POST请求:post'/'=>:show,:on=>:member但是我怎样才能为比赛做到这一点呢？谢谢。最佳答案如果你同时想要POST和GETmatch'graphs/(:id(/:action))'=>'graphs#(:action)',:via=>[:get,:post]编辑默认值可以设置如下match'g
ruby - 为什么 return 关键字会导致我的 'if block' 出现问题？ - 2
下面的代码工作正常:person={:a=>:A,:b=>:B,:c=>:C}berson={:a=>:A1,:b=>:B1,:c=>:C1}kerson=person.merge(berson)do|key,oldv,newv|ifkey==:aoldvelsifkey==:bnewvelsekeyendendputskerson.inspect但是如果我在“ifblock”中添加return，我会得到一个错误:person={:a=>:A,:b=>:B,:c=>:C}berson={:a=>:A1,:b=>:B1,:c=>:C1}kerson=person.merge(berson
ruby-on-rails - 什么会导致与 APNS 的连接间歇性断开连接？ - 2
我有一个ruby脚本可以打开与Apple推送服务器的连接并发送所有待处理的通知。我看不出任何原因，但当Apple断开我的脚本时，我遇到了管道损坏错误。我已经编写了我的脚本来适应这种情况，但我宁愿只是找出它发生的原因，这样我就可以在第一时间避免它。它不会始终根据特定通知断开连接。它不会以特定的字节传输大小断开连接。一切似乎都是零星的。您可以在单个连接上发送的数据传输或有效负载计数是否有某些限制？看到人们的解决方案始终保持一个连接打开，我认为这不是问题所在。我看到连接在3次通知后断开，我看到它在14次通知后断开。我从未见过它能超过14点。有没有人遇到过这种类型的问题？如何处理？
建模分析 | 平面2R机器人(二连杆)运动学与动力学建模(附Matlab仿真) - 2
目录0专栏介绍1平面2R机器人概述2运动学建模2.1正运动学模型2.2逆运动学模型2.3机器人运动学仿真3动力学建模3.1计算动能3.2势能计算与动力学方程3.3动力学仿真0专栏介绍?附C++/Python/Matlab全套代码?课程设计、毕业设计、创新竞赛必备！详细介绍全局规划(图搜索、采样法、智能算法等)；局部规划(DWA、APF等)；曲线优化(贝塞尔曲线、B样条曲线等)。?详情：图解自动驾驶中的运动规划(MotionPlanning)，附几十种规划算法1平面2R机器人概述如图1所示为本文的研究本体——平面2R机器人。对参数进行如下定义：机器人广义坐标

5个高并发导致数仓资源类报错分析

【报错信息一】

【解决办法】

【报错信息二】

【解决办法】

【报错信息三】

【解决办法】

【报错信息四】

【解决办法】

【报错信息五】

【解决办法】

有关5个高并发导致数仓资源类报错分析的更多相关文章

随机推荐