草庐IT

Docker 容器常见故障排查及处理

鹅鹅鹅呢 2023-04-18 原文

原文链接:https://blog.csdn.net/qq_41958579/article/details/107927140

Docker是一种相对使用较简单的容器,我们可以通过以下几种方式获取信息:
1、通过docker run执行命令,或许返回信息
2、通过docker logs 去获取日志,做有针对性的筛选
3、通过systemctl status docker查看docker服务状态
4、通过journalctl -u docker.service 查看日志

以下是整理的docker容器类问题故障,分为9个类

一、启动类故障

1、docker: Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running

原因:Docker未正常启动
解决方式:

systemctl start docker

2、can’t create unix socket /var/run/docker.sock: is a directory

原因:docker.sock不能创建
解决方式:

rm -rf /var/run/docker.sock

然后重新启动docker

3、Job for docker.service failed. Failed to start Docker Application

原因:Selinux引起
解决方式:
/etc/sysconfig/selinux , 把 selinux 值改为disabled
重启docker解决

4、docker: Error response from daemon:

/var/lib/docker/overlay/XXXXXXXXXXXXXXXXXXXXXXX: no such file or directory.
原因:docker没有指定目录或文件
解决方式:

systemctl stop docker
rm -rf /var/lib/docker/*
systemctl start docker

重启run镜像启动容器

5、docker: Error response from daemon: Conflict. The container name “XXX” is already in use by container “XXX”. You have to remove (or rename) that container to be able to reuse that name.

原因:docker name重名
解决方式:
改名容器或者删除重建容器

6、Error: Connection activation failed: No suitable device found for this connection

原因:网卡配置问题
解决方式:
重启网卡

7、系统重启后docker无法启动

报错为:docker0: iptables: No chain/target/match by that name
原因:docker服务iptables问题
解决方式:
重启docker服务

system restart docker

8、Error starting daemon: error initializing graphdriver: driver not supported

使用overlay2存储驱动启动docker daemon报错
原因:daemon缺少配置
解决方式:
添加配置:
/etc/docker/daemon.json
{“storage-driver”: “overlay2”,
“storage-opts”: [“overlay2.override_kernel_check=true”]}

9、Failed to start docker.service: Unit docker.service is masked.

未知原因:docker 被mask
解决方式:

systemctl unmask docker.service
systemctl unmask docker.socket
systemctl start docker.service

10、Failed to start docker.service: Unit is not loaded properly: Invalid argument.

未知原因:docker服务无法正常load
解决方式:
卸载docker, 删除docker.service
重新安装docker

11、docker-compose启动容器时报错:

/usr/lib/python2.7/site-packages/requests/init.py:80: RequestsDependencyWarning: urllib3 (1.22) or chardet (2.2.1) doesn’t match a supported version! RequestsDependencyWarning)

未知原因:pip相应组件版本不支持
解决方式:

pip uninstall urllib3
pip uninstall chardet
pip install requests

12、docker容器重启故障

强杀docker进程后,重启docker。docker中的容器无法启动并报错
docker restart XXXXXXX Error response from daemon: Cannot restart container XXXXXXX: container “XXXXXXXXXXXXXXXX”: already exists

原因:旧容器未安全退出
解决方式:

docker-containerd-ctr --address /run/docker/containerd/docker-containerd.sock --namespace c rm <容器hash_id>
docker start 容器

13、docker重启错误-重启命令一直卡住

systemctl restart docker 卡住
未知原因:可能是启动的容器数量过多,或者磁盘IO问题
解决方式:

systemctl start docker-cleanup.service
systemctl start docker

二、权限问题报错

14、Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock
解决方式:
查看 /var/run/docker.sock所在用户组
将用户重新加入docker组中,usermod -aG docker ${USER}

15、chown socket at step GROUP: No such process
原因:docker无法找到Group组信息,docker组有可能被误删除,
解决方式:

groupadd docker

16、Post http:///var/run/docker.sock/v1.XXX /auth: dial unix /var/run/docker.sock: permission denied. Are you trying to connect to a TLS-enabled daemon without TLS

原因:非Root用户管理Docker时,权限不足
解决方式:

groupadd docker
usermod -a -G docker user

17、docker commit镜像时报错

Error processing tar file(exit status 1): unexpected EOF
原因:可能是权限问题引起
解决方式:
chmod +x 加一个执行权限

三、镜像和仓库问题报错

18、Get https://registry-1.docker.io/v2/: dial tcp: lookup registry-1.docker.io

原因:Docker仓库无法访问
解决方式:
修改Docker仓库源为国内或者自建的仓库源
修改/etc/docker/daemon.json

19、推送本地镜像报错

The push refers to a repository [XXXX] Get https://xxx/v1/_ping: http: server gave HTTP response to HTTPS client
原因:docker registry未采用https服务所致
解决方式:
/etc/docker/daemon.json 文件写入:
{ “insecure-registries”:[“”] }

20、/usr/bin/docker-current: Error response from daemon: oci runtime error: container_linux.go: starting container process caused “exec: “/bin/bash”: executable file not found in $PATH”.

原因:Docker镜像自身问题或者Docker引擎版本比较低导致
解决方式:
可以升级Docker版本服务

21、构建镜像,执行chown -R非常慢

原因:Docker使用写时复制策略,所以chown命令执行时,会将上层镜像文件全部复制到当前层,然后再修改权限,再写入文件系统。
解决方式:
不应该使用chown -R 这类大批量修改文件的命令

22、docker build构建镜像的时候报错:
Message from syslogd kernel:unregister_netdevice: waiting for lo to become free. Usage count = 1

原因:docker engine版本过高
解决方式:
docker engine版本需要和docker内部镜像的内核版本匹配

23、docker: Error response from daemon: containerd: container did not start before the specified time-out.ERRO[0133] error getting events from daemon: context canceled

原因:修改完docker root dir,重启后,下载镜像报错
解决方式:
重启docker服务
或者重启服务器

四、资源问题报错

25、Docker no space left on device

原因:空间不足
解决方式:清理空间,删除未被使用的容器,镜像等资源
docker system prune -a

26、/var/lib/docker/containers 占用过大

原因:日志文件占用过大
解决方式:

cat /dev/null > *-json.log

或者

增加dockerd启动参数,/etc/docker/daemon.json
{“log-driver”:“json-file”,
“log-opts”: {“max-size”:“2G”, “max-file”:“10”}

27、max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]

原因:系统参数默认配置过小
解决方式:
修改/etc/sysctl.conf里面的vm.max_map_count 调大

28、Got starting container process caused “process_linux.go:301:
running exec setns process for init caused “exit status 40””: unknown.
from time to time

原因:可能是cache问题引起
解决方式:

echo 1 > /proc/sys/vm/drop_caches

29、docker本机启动多台容器导致出现后续容器启动失败

原因:查看硬盘空间是否满,如果不是硬盘空间问题引起
解决方式:

vim /etc/sysctl.conf
添加参数 fs.aio-max-nr = 1048576
sysctl -p

30、Docker启动异常,状态反复restarting

Docker logs 容器名,查看异常日志
查看/var/log/messages
原因:内存跑满,引起OOM
解决方式:
释放内存后,再启动容器

五、版本不兼容报错

31、overlayfs: Can’t delete file moved from base layer to newly created dir even on ext4

原因:Centos 提供的文件系统 XFS 和 Overlay 兼容问题导致,
解决方式:
这个问题的修复在内核 4.4.6以上

32、docker: Error response from daemon: OCI runtime create failed: container_linux.go:344: starting container process caused “process_linux.go:297: getting the final child’s pid from pipe caused “read init-p: connection reset by peer””: unknown.

原因:Docker版本和操作系统版本不匹配
解决方式:
重新安装和操作系统内核支持的docker 版本

六、网络或端口问题报错

33、WARNING: IPv4 forwarding is disabled. Networking will not work.

原因:ipv4网络无法转发
解决方式:
/usr/lib/sysctl.d/00-system.conf 在最后一行添加net.ipv4.ip_forward=1
重启network服务。删除错误的容器,再次创建新容器

34、Creating network “xxxxxxx” with the default driver

原因:docker网关冲突
启动容器、docker-compose启动容器后,断网问题
解决方式:
配置 docker-compose.yml内给启动的容器配置参数network_mode: “bridge”

35、Unable to find a node that satisfies the following conditions [port xxxx]

原因:当容器使用端口映射(docker run -p xxxx:xxxx或 compose模板中的
ports)之后 系统会在宿主机上创建一个port,通过NAT来访问容器的指定port。如果宿主机上的端口被容器或者系统进程占用,就会导致端口分配失败。
解决方式:
清除占用端口的容器或者进程,或调整容器端口映射的宿主机端口避免冲突

36、Error response from daemon: service endpoint with name xxx already

原因:端口已经被占用
解决方式:
重启docker容器

37、docker: Error response from daemon: driver failed programming external connectivity on endpoint XXXXX: Bind for 0.0.0.0:80 failed: port is already allocated

原因:容器端口冲突
解决方式:
更换宿主机绑定端口

七、Docker安装报错

38、安装docker报Requires: container-selinux >= 2.9

原因:container-selinux版本低或者是没安装的原因
解决方式:

wget -O /etc/yum.repos.d/CentOS-Base.repo
http://mirrors.aliyun.com/repo/Centos-7.repo
yum install epel-release
yum makecache
yum install container-selinux

39、安装docker-compose时报错 “ImportError: ‘module’ object has no attribute ‘check_specifier’”

原因:setuptools版本问题
解决方式:
升级setuptools到30.1.0版本以上版本

pip install --upgrade setuptools

40、安装docker-compose时报错

DEPRECATION: Python 2.7 will reach the end of its life on January 1st, 2020. Please upgrade your Python as Python 2.7 won’t be maintained after that date. A future version of pip will drop support for Python 2.7.

原因:python2.7提示升级
解决方式:

pip install -i https://pypi.douban.com/simple docker-compose

八、Docker删除报错

41、docker删除容器报错

Error response from daemon:Driver overlay failed to remove root filesystem xxxxx: remove/var/lib/docker/overlay2/xxxxx/merged: device or resource busy

原因:容器挂载数据卷,无法直接删除
解决方式:

grep docker /proc/*/mountinfo | grep xxxxx

kill进程后,再重新删除容器

42、状态dead的容器删除报错

Error response from daemon: Driver aufs failed to remove root filesystem XXXXXXXXXXXXXXXX: aufs: unmount error after retries: /var/lib/docker/aufs/mnt/xxxxxxxx: device or resource busy

原因:dead状态容器无法删除,还在占用资源
解决方式:

docker rm -fv 容器id

过几分钟后会自动删除

43、docker删除镜像报错

Error response from daemon: conflict: unable to remove repository reference “XXXX” (must force) - container XXXX is using its referenced image YYYY

原因:镜像正在被某容器使用
解决方式:需要删除相关ID容器后,才能删除镜像

44、docker删除镜像报错

Error response from daemon: conflict: unable to delete XXXXXXXXXX (must be forced) - image is referenced in multiple repositories

原因:镜像login push 了远端其他仓库
解决方式:如果不需要此镜像, docker rmi -f 强删

45、docker删除镜像报错

Error response from daemon: conflict: unable to delete XXX (cannot be forced) - image has dependent child images

原因:存在依赖于父镜像的子镜像
解决方式:强制删除镜像或者批量删除容器,再删除镜像

九、其他报错

46、docker: Error response from daemon: driver failed programming external connectivity on end-point XXXXXXX: (iptables failed: iptables --wait -t filter -A DOCKER ! -i docker0 -o docker0 -p tcp -d 172.17.0.2 --dport 8080 -j ACCEPT: iptables: No chain/target/match by that name.

原因:防火墙问题引起
解决方式:关闭防火墙,重启docker

47、执行docker info出现如下警告
WARNING: bridge-nf-call-iptables is disabled
WARNING: bridge-nf-call-ip6tables is disabled

原因:配置问题引起,需要启用bridge-nf-call-iptables
解决方式:

vi /etc/sysctl.conf       // 添加以下内容
net.bridge.bridge-nf-call-ip6tables = 1
net.bridge.bridge-nf-call-iptables = 1
net.bridge.bridge-nf-call-arptables = 1

48、docker数据库相关报错

使用Docker创建mysql容器闪退
Database is uninitialized and password option is not specified

解决方式:

docker run -d -e MYSQL_ROOT_PASSWORD=[密码] -p 3306:3306 mysql镜像

Docker使用规范建议

  • 尽量使用最近1-2年的新的稳定的docker版本
  • 不要去安装今年前很老的版本,大量的bug已经被新版本更新解决掉了
  • 尽量不要去创建非常大的镜像,比如5G10G以上的
  • 镜像要尽量轻量化,去除不必要的软件,数据等
  • 容器内挂载宿主机配置,使用只读
  • 容器需要-v 宿主机的配置文件,尽量使用ro只读
  • 数据要挂载宿主机物理硬盘或存储节点上
  • 不要直接在容器里run,避免容器宕机引起数据丢失
  • 应用日志一定要挂到宿主机上
  • 不要直接打印到容器内,避免只能docker logs方式查看,避免去vulume目录里查看日志
  • 不要只使用latest标签
  • Tag要有个管理标准,可以根据tag查找对应版本
  • 不要使用容器ip,配置里更不能写死(默认172.17.0.x)
  • 容器重启后,ip很可能会变
  • 尽量不要在单容器内跑多进程
  • 容器不是虚拟机,尽量做到1个容器,1个进程
  • 跨环境镜像保持一致
  • 不论是测试,UAT,生产环境,尽量保持同一个镜像,不要变更,环境变更只需要变更环境变量参数做区分
  • 一定监控docker容器,即使发现问题
  • 建议使用prometheus监控容器
  • 一定要限制docker容器的资源, 尤其是CPU、内存、硬盘空间,甚至是网络等,避免侵占宿主机的硬件资源

原文链接:https://blog.csdn.net/qq_41958579/article/details/107927140

有关Docker 容器常见故障排查及处理的更多相关文章

  1. ruby - 如何指定 Rack 处理程序 - 2

    Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack

  2. Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting - 2

    1.错误信息:Errorresponsefromdaemon:Gethttps://registry-1.docker.io/v2/:net/http:requestcanceledwhilewaitingforconnection(Client.Timeoutexceededwhileawaitingheaders)或者:Errorresponsefromdaemon:Gethttps://registry-1.docker.io/v2/:net/http:TLShandshaketimeout2.报错原因:docker使用的镜像网址默认为国外,下载容易超时,需要修改成国内镜像地址(首先阿里

  3. git使用常见问题(提交代码,合并冲突) - 2

    文章目录git常用命令(简介,详细参数往下看)Git提交代码步骤gitpullgitstatusgitaddgitcommitgitpushgit代码冲突合并问题方法一:放弃本地代码方法二:合并代码常用命令以及详细参数gitadd将文件添加到仓库:gitdiff比较文件异同gitlog查看历史记录gitreset代码回滚版本库相关操作远程仓库相关操作分支相关操作创建分支查看分支:gitbranch合并分支:gitmerge删除分支:gitbranch-ddev查看分支合并图:gitlog–graph–pretty=oneline–abbrev-commit撤消某次提交git用户名密码相关配置g

  4. Ruby-vips 图像处理库。有什么好的使用示例吗? - 2

    我对图像处理完全陌生。我对JPEG内部是什么以及它是如何工作一无所知。我想知道,是否可以在某处找到执行以下简单操作的ruby​​代码:打开jpeg文件。遍历每个像素并将其颜色设置为fx绿色。将结果写入另一个文件。我对如何使用ruby​​-vips库实现这一点特别感兴趣https://github.com/ender672/ruby-vips我的目标-学习如何使用ruby​​-vips执行基本的图像处理操作(Gamma校正、亮度、色调……)任何指向比“helloworld”更复杂的工作示例的链接——比如ruby​​-vips的github页面上的链接,我们将不胜感激!如果有ruby​​-

  5. ruby - 将对象设置为 nil 是否很常见? - 2

    我正在构建一个应用程序,想知道是否将未使用的对象设置为nil是生产级编码中的常见做法。我知道这只是垃圾收集器的提示,并不总是处理对象。 最佳答案 根据这个thread如果您使用完一个成员对象,将其设置为nil将引发被引用对象被垃圾回收。如果它是局部变量,方法exit将做同样的事情。也就是说,如果您要求将成员显式设置为nil,我会质疑您的设计。 关于ruby-将对象设置为nil是否很常见?,我们在StackOverflow上找到一个类似的问题: https://

  6. ruby - Faye WebSocket,关闭处理程序被触发后重新连接到套接字 - 2

    我有一个super简单的脚本,它几乎包含了FayeWebSocketGitHub页面上用于处理关闭连接的内容:ws=Faye::WebSocket::Client.new(url,nil,:headers=>headers)ws.on:opendo|event|p[:open]#sendpingcommand#sendtestcommand#ws.send({command:'test'}.to_json)endws.on:messagedo|event|#hereistheentrypointfordatacomingfromtheserver.pJSON.parse(event.d

  7. ruby - 变量赋值后的 if 语句 - 有多常见? - 2

    我最近与一位同事讨论了以下Ruby语法:value=ifa==0"foo"elsifa>42"bar"else"fizz"end我个人并没有看到太多这种逻辑,但我的同事指出,这实际上是一种相当普遍的Rubyism。我试着用谷歌搜索这个主题,但没有找到任何文章、页面或SO问题来讨论它,这让我相信这可能是一种非常实际的技术。然而,另一位同事发现语法令人困惑,而是将上面的逻辑写成这样:ifa==0value="foo"elsifa>42value="bar"elsevalue="fizz"end缺点是value=的重复声明和隐式elsenil的丢失,如果我们想使用它的话。这也感觉它与Ruby

  8. ruby - 如何使用 Ruby HTTP::Net 处理 404 错误? - 2

    我正在尝试解析网页,但有时会收到404错误。这是我用来获取网页的代码:result=Net::HTTP::getURI.parse(URI.escape(url))如何测试result是否为404错误代码? 最佳答案 像这样重写你的代码:uri=URI.parse(url)result=Net::HTTP.start(uri.host,uri.port){|http|http.get(uri.path)}putsresult.codeputsresult.body这将打印状态码和正文。

  9. ruby-on-rails - 使用 Ruby 正确处理 Stripe 错误和异常以实现一次性收费 - 2

    我查看了Stripedocumentationonerrors,但我仍然无法正确处理/重定向这些错误。基本上无论发生什么,我都希望他们返回到edit操作(通过edit_profile_path)并向他们显示一条消息(无论成功与否)。我在edit操作上有一个表单,它可以POST到update操作。使用有效的信用卡可以正常工作(费用在Stripe仪表板中)。我正在使用Stripe.js。classExtrasController5000,#amountincents:currency=>"usd",:card=>token,:description=>current_user.email)

  10. ruby-on-rails - Rails 处理 .Erb 与 Nils - 2

    当profile为nil时,总是让我感到悲伤...我该怎么办? 最佳答案 在View中使用变量之前,始终检查变量是否为nil。我确信这个问题有更优雅的解决方案,但这应该能让您入门。 关于ruby-on-rails-Rails处理.Erb与Nils,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/2709605/

随机推荐