系统重启后ngix reload不生效原因分析

三杯水 2023-03-28 原文

这是一种比较少见，困扰我很久的问题，虽然这个问题很简单，但是找到根本原因还是费了不少时间，现在把分析过程分享如下。

前提：需要对Linux系统启动过程、Nginx进程启动过程及进程跟踪有一定的理解。

一，Nginx reload过程分析：

经过查看官网文档及结合Nginx源码分析，大致得出reload过程进行了如下操作。

1，检查配置是否正确

相当于nginx -t

2，打开日志文件

相当于nginx -s reopen

由于日志文件比较多，需要打开多个文件

3，重新监听套接字

相当于nginx

这个步骤会初始化很多东西，重点关注哈希表

4，关闭旧worker进程

相当于nginx -s quit

二，nginx进程分析

1，首先了解nginx的两种进程

master进程，root用户打开，接收信号，管理worker进程

worker进程，nginx用户打开，工作进程，负责处理http请求

2，starce跟踪主进程号，期间执行nginx -s reload，发现卡在检查日志文件这块

主进程跟踪，因为reload过程是系统发送HUP信号给nginx主进程

#starce -p 2298

......

open("/data/wwwlogs/access.xxx.xxx.xxx.log", O_WRONLY|O_CREAT|O_APPEND, 0644) = -1 EMFILE (Too many open files)

write(808, "2016/02/17 09:50:22 [emerg] 2298"..., 124) = 124

......

3，根据提示，查找进程的系统限制文件

master进程限制

# cat /proc/2398/limits

Limit Soft Limit Hard Limit Units

Max cpu time unlimited unlimited seconds

Max file size unlimited unlimited bytes

Max data size unlimited unlimited bytes

Max stack size 10485760 unlimited bytes

Max core file size 0 unlimited bytes

Max resident set unlimited unlimited bytes

Max processes 127015 127015 processes

Max open files 1024 4096 files

Max locked memory 65536 65536 bytes

Max address space unlimited unlimited bytes

Max file locks unlimited unlimited locks

Max pending signals 127015 127015 signals

Max msgqueue size 819200 819200 bytes

Max nice priority 0 0

Max realtime priority 0 0

Max realtime timeout unlimited unlimited us

worker进程限制

# cat /proc/2300/limits

Limit Soft Limit Hard Limit Units

Max cpu time unlimited unlimited seconds

Max file size unlimited unlimited bytes

Max data size unlimited unlimited bytes

Max stack size 10485760 unlimited bytes

Max core file size 0 unlimited bytes

Max resident set unlimited unlimited bytes

Max processes 127015 127015 processes

Max open files 409600 409600 files

Max locked memory 65536 65536 bytes

Max address space unlimited unlimited bytes

Max file locks unlimited unlimited locks

Max pending signals 127015 127015 signals

Max msgqueue size 819200 819200 bytes

Max nice priority 0 0

Max realtime priority 0 0

Max realtime timeout unlimited unlimited us

补充错误日志：

2016/02/17 10:48:05 [notice] 47386#0: signal process started

2016/02/17 10:48:05 [emerg] 2298#0: open() "/data/wwwlogs/access_xxx.xxx.xxx.log" failed (24: Too many open files)

三，解决方案

1，修改限制

一般从以下3方面调优：

第一：nginx.conf参数规划与设置

worker_rlimit_nofile ：限制单个工作进程打开的最大文件数：

线上配置没有问题

worker_rlimit_nofile 409600;

第二：系统级别的检查与设置

就是 /etc/security/limits.conf的配置与修改，请参考Linux系统资源限制汇总

线上配置没有问题

* soft nofile 655350

* hard nofile 655350

第三：内核级别的检查与设置：

fs.file-max值的大小设置：

线上配置比较大

fs.file-max = 6553600

注意：file-max的默认值大概是系统内存的10%（系统内存以kb计算）

2，验证生效

结果发现以上配置前期都有配置，但是重启服务器发现主进程的限制并没有修改过来，但是登陆服务器后无论在终端ulimit -n 查看还是关闭nginx主进程后重启nginx都生效了，由此推理出

问题可能出在linux系统启动过程中，也就是说nginx主进程启动时，上面的限制配置没有生效，后来查阅资料发现系统启动后执行login时才会使limits.conf配置生效，所以需要调整顺序。

根据实际情况，系统启动过程如下：

1、读取/etc/inittab来读取默认级别假设：读取到的默认级别是 3

2、执行初始化系统脚本 /etc/rc.d/rc.sysinit 来初始化脚本

3、然后执行 /etc/rc.d/rc 脚本

4、执行/etc/rc.d/rc.local脚本，此脚本是启动过程中最后启动的一个脚本。

最后会执行 /bin/login 登录用户。至此系统启动过程完成，login时才会执行/etc/profile，～/.bash_profile和～/.bashrc等，此时的ulimit -n查到的值不是nginx进程启动时的值。

默认用户登陆时会使limits.conf配置文件生效，这个比nginx进程启动晚，要在这之前使配置生效，需要补充配置如下：

cat /etc/rc.local

ulimit -HSn 655350 （注意在nginx启动前执行）

/usr/local/nginx/sbin/nginx

四，补充优化

主要是相关参数调大了一些。

1，内核优化

net.ipv4.tcp_max_tw_buckets 修改大一些，减少内核负担，iptable本身对内核性能有影响

# ss -an |awk '{print $1}'|sort |uniq -c |sort -rn

15415 ESTAB

12979 TIME-WAIT

1961 FIN-WAIT-2

501 FIN-WAIT-1

234 LAST-ACK

32 SYN-RECV

11 LISTEN

3 CLOSING

1 SYN-SENT

1 State

1 CLOSE-WAIT

线上修改配置如下：

net.ipv4.tcp_max_tw_buckets = 18000

2，nginx优化

主要是哈希表，其他配置已经优化，哈希表有如下几种

server_names_hash可以加

map_hash可以加

types_hash够用

request header 不考虑

variables_hash 够用

线上修改配置如下：

server_names_hash_max_size 512000;

server_names_hash_bucket_size 64; （默认）

map_hash_max_size 204800;

map_hash_bucket_size 64; （默认）

有关系统重启后ngix reload不生效原因分析的更多相关文章

ruby-on-rails - rails 目前在重启后没有安装 - 2
我有一个奇怪的问题:我在rvm上安装了rubyonrails。一切正常，我可以创建项目。但是在我输入“railsnew”时重新启动后，我有“程序'rails'当前未安装。”。SystemUbuntu12.04ruby-v"1.9.3p194"gemlistactionmailer(3.2.5)actionpack(3.2.5)activemodel(3.2.5)activerecord(3.2.5)activeresource(3.2.5)activesupport(3.2.5)arel(3.0.2)builder(3.0.0)bundler(1.1.4)coffee-rails(
ruby-on-rails - 如何优雅地重启 thin + nginx？ - 2
我的瘦服务器配置了nginx，我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例，但找不到好的解决方案。有没有人能做到这一点？最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器，例如server{listen80;server
电脑0x0000001A蓝屏错误怎么U盘重装系统教学 - 2
　　电脑0x0000001A蓝屏错误怎么U盘重装系统教学分享。有用户电脑开机之后遇到了系统蓝屏的情况。系统蓝屏问题很多时候都是系统bug，只有通过重装系统来进行解决。那么蓝屏问题如何通过U盘重装新系统来解决呢？来看看以下的详细操作方法教学吧。　　准备工作：　　1、U盘一个（尽量使用8G以上的U盘）。　　2、一台正常联网可使用的电脑。　　3、ghost或ISO系统镜像文件（Win10系统下载_Win10专业版_windows10正式版下载-系统之家）。　　4、在本页面下载U盘启动盘制作工具：系统之家U盘启动工具。　　U盘启动盘制作步骤：　　注意：制作期间，U盘会被格式化，因此U盘中的重要文件请注
【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2
在应用开发中，有时候我们需要获取系统的设备信息，用于数据上报和行为分析。那在鸿蒙系统中，我们应该怎么去获取设备的系统信息呢，比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况，一种是设备信息的获取，一种是系统信息的获取。1.1、获取设备信息获取设备信息，鸿蒙的SDK包为我们提供了DeviceInfo类，通过该类的一些静态方法，可以获取设备信息，DeviceInfo类的包路径为：ohos.system.DeviceInfo.具体的方法如下：ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt
kvm虚拟机安装centos7基于ubuntu20.04系统 - 2
需求：要创建虚拟机，就需要给他提供一个虚拟的磁盘，我们就在/opt目录下创建一个10G大小的raw格式的虚拟磁盘CentOS-7-x86_64.raw命令格式：qemu-imgcreate-f磁盘格式磁盘名称磁盘大小qemu-imgcreate-f磁盘格式-o?1.创建磁盘qemu-imgcreate-fraw/opt/CentOS-7-x86_64.raw10G执行效果#ls/opt/CentOS-7-x86_64.raw2.安装虚拟机使用virt-install命令，基于我们提供的系统镜像和虚拟磁盘来创建一个虚拟机，另外在创建虚拟机之前，提前打开vnc客户端，在创建虚拟机的时候，通过vnc
ruby - 在没有基准或时间的情况下用 Ruby 测量用户时间或系统时间 - 2
因为我现在正在做一些时间测量，我想知道是否可以在不使用Benchmark类或命令行实用程序time的情况下测量用户时间或系统时间。使用Time类只显示挂钟时间，而不显示系统和用户时间，但是我正在寻找具有相同灵active的解决方案，例如time=TimeUtility.now#somecodeuser,system,real=TimeUtility.now-time原因是我有点不喜欢Benchmark，因为它不能只返回数字(编辑:我错了-它可以。请参阅下面的答案。)。当然，我可以解析输出，但感觉不对。*NIX系统的time实用程序也应该可以解决我的问题，但我想知道是否已经在Ruby中实
ruby - 以毫秒为单位获取当前系统时间 - 2
在Ruby中，以毫秒为单位获取自纪元(1970)以来的当前系统时间的正确方法是什么？我试过了Time.now.to_i，好像不是我想要的结果。我需要结果显示毫秒并且使用long类型，而不是float或double。最佳答案 (Time.now.to_f*1000).to_iTime.now.to_f显示包含十进制数字的时间。要获得毫秒数，只需将时间乘以1000。关于ruby-以毫秒为单位获取当前系统时间，我们在StackOverflow上找到一个类似的问题：
ruby-on-rails - 如何构建复杂的 Rails 系统 - 2
关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion我们有以下(以及更多)系统，我们将数据从一个应用推送/拉取到另一个:托管CRM(InsideSales.com)Asterisk电话系统(内部)横幅广告系统(openx，我们托管)潜在客户生成系统(自行开发)电子商务商店(spree，我们托管)工作板(本土)一些工作网站抓取+入站工作提要电子邮件传送系统(如Mailchimp，自主开发)事件管理系统(如eventbrite，自主开发)仪表板系统(大量图表和
ruby-on-rails - Rails 3，在RAILS_ROOT上方显示来自本地文件系统的jpg图片 - 2
我正在尝试找出一种方法来显示来自不在RAILS_ROOT下(在RedHat或Ubuntu环境中)的已安装文件系统的图像。我不想使用符号链接(symboliclink)，因为这个应用程序实际上是通过Tomcat部署的，而当我关闭Tomcat时，Tomcat会尝试跟随符号链接(symboliclink)并删除挂载中的所有图像。由于这些文件的数量和大小，将图像放在public/images下也不是一种选择。我查看了send_file，但它只会显示一张图片。我需要在一个格式良好的页面中显示6个请求的图像。由于膨胀，我宁愿不使用Base64编码，但我不知道如何将图像数据与呈现的页面一起传递下去。
ruby - 我可以从 Ruby 中的系统调用中获得连续输出吗？ - 2
当您在Ruby脚本中使用系统调用时，您可以像这样获得该命令的输出:output=`ls`putsoutput这就是thisquestion是关于。但是有没有办法显示系统调用的连续输出？例如，如果您运行此安全复制命令，以通过SSH从服务器获取文件:scpuser@someserver:remoteFile/some/local/folder/...它显示随着下载进度的连续输出。但是这个:output=`scpuser@someserver:remoteFile/some/local/folder/`putsoutput...不捕获该输出。如何从我的Ruby脚本中显示正在进行的下载进度？

系统重启后ngix reload不生效原因分析

有关系统重启后ngix reload不生效原因分析的更多相关文章

随机推荐