草庐IT

499. 【kubernetes】解决 k8s “BGP not established with” 错误

七镜 2023-10-11 原文

今天打开 kubernetes dashboard 仪表盘一看,发现有块红的,如下所示:



接着,通过命令行查到下面的错误:

[root@k8s0 server]# kubectl get all -n kube-system                         
NAME                                           READY   STATUS    RESTARTS   AGE
pod/calico-kube-controllers-798cc86c47-k6x4g   1/1     Running   0          30m
pod/calico-node-cttlt                          1/1     Running   0          30m
pod/calico-node-mnp54                          1/1     Running   0          30m
pod/calico-node-smvvn                          0/1     Running   0          30m

NAME                         DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR            AGE
daemonset.apps/calico-node   3         3         2       3            2           kubernetes.io/os=linux   30m

NAME                                      READY   UP-TO-DATE   AVAILABLE   AGE
deployment.apps/calico-kube-controllers   1/1     1            1           30m

NAME                                                 DESIRED   CURRENT   READY   AGE
replicaset.apps/calico-kube-controllers-798cc86c47   1         1         1       30m
[root@k8s0 server]# 

进一步执行命令kubectl describe pod/calico-node-smvvn -n kube-system查到下面的错误:

calico/node is not ready: BIRD is not ready: BGP not established with 192.168.3.xxx,192.168.3.xxx

进一步执行命令 kubectl logs -f calico-node-smvvn -n kube-system(查看有问题的节点) 查到下面的日志:

2022-11-21 12:20:58.373 [INFO][98] monitor-addresses/autodetection_methods.go 103: Using autodetected IPv4 address on interface nerdctl0: 10.4.0.1/24
2022-11-21 12:21:47.330 [INFO][97] felix/summary.go 100: Summarising 11 dataplane reconciliation loops over 1m3.1s: avg=5ms longest=10ms (resync-filter-v4)
2022-11-21 12:21:58.375 [INFO][98] monitor-addresses/autodetection_methods.go 103: Using autodetected IPv4 address on interface nerdctl0: 10.4.0.1/24
2022-11-21 12:22:50.288 [INFO][97] felix/summary.go 100: Summarising 10 dataplane reconciliation loops over 1m3s: avg=6ms longest=13ms (resync-filter-v4)
2022-11-21 12:22:58.376 [INFO][98] monitor-addresses/autodetection_methods.go 103: Using autodetected IPv4 address on interface nerdctl0: 10.4.0.1/24
2022-11-21 12:23:52.746 [INFO][97] felix/summary.go 100: Summarising 7 dataplane reconciliation loops over 1m2.5s: avg=3ms longest=3ms (resync-routes-v4,resync-routes-v4,resync-rules-v4,resync-wg)

进一步执行命令kubectl logs -f calico-node-mnp54 -n kube-system(查看没有问题的节点),日志如下

2022-11-21 12:22:58.963 [INFO][94] monitor-addresses/autodetection_methods.go 103: Using autodetected IPv4 address on interface enp2s0f0: 192.168.3.102/24
2022-11-21 12:23:54.232 [INFO][96] felix/summary.go 100: Summarising 7 dataplane reconciliation loops over 1m3.9s: avg=3ms longest=3ms (resync-ipsets-v4)
2022-11-21 12:23:58.966 [INFO][94] monitor-addresses/autodetection_methods.go 103: Using autodetected IPv4 address on interface enp2s0f0: 192.168.3.102/24
2022-11-21 12:24:57.809 [INFO][96] felix/summary.go 100: Summarising 8 dataplane reconciliation loops over 1m3.6s: avg=6ms longest=19ms (resync-filter-v4,resync-mangle-v4,resync-nat-v4)
  • 可以看出两个pod 里显示的网段不一样,一个是10.4.0.1/24 一个是 192.168.3.102/24。

再来执行命令(ip addr)看一下有问题的那个pod对应的节点ip:

[root@k8s0 server]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
    inet6 ::1/128 scope host 
       valid_lft forever preferred_lft forever
2: enp2s0f0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
    link/ether 6c:92:bf:2b:20:6a brd ff:ff:ff:ff:ff:ff
    inet 192.168.3.100/24 brd 192.168.3.255 scope global noprefixroute enp2s0f0
       valid_lft forever preferred_lft forever
    inet 192.168.3.250/24 scope global secondary enp2s0f0
       valid_lft forever preferred_lft forever
    inet6 fe80::c44d:4c26:e656:ae28/64 scope link noprefixroute 
       valid_lft forever preferred_lft forever
3: enp2s0f1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
    link/ether 6c:92:bf:2b:20:6b brd ff:ff:ff:ff:ff:ff
4: tunl0@NONE: <NOARP,UP,LOWER_UP> mtu 1480 qdisc noqueue state UNKNOWN group default qlen 1000
    link/ipip 0.0.0.0 brd 0.0.0.0
    inet 172.17.144.64/32 scope global tunl0
       valid_lft forever preferred_lft forever
6: nerdctl0: <NO-CARRIER,BROADCAST,MULTICAST,UP> mtu 1500 qdisc noqueue state DOWN group default qlen 1000
    link/ether 6e:c2:85:5f:0f:20 brd ff:ff:ff:ff:ff:ff
    inet 10.4.0.1/24 brd 10.4.0.255 scope global nerdctl0
       valid_lft forever preferred_lft forever
    inet6 fe80::6cc2:85ff:fe5f:f20/64 scope link 
       valid_lft forever preferred_lft forever
  • 可以看到,有问题的那个 pod 使用的是 buildkitd 创建的网卡,这是不对的。

现在知道了,这是网卡冲突导致的,我们打开 calico.yaml 文件,可以看到:

             # Auto-detect the BGP IP address.
             - name: IP
               value: "autodetect"
  • 原来BGP IP 是自动获取的。

解决办法:

修改calico.yaml 配置文件,将 IP_AUTODETECTION_METHOD 环境变量改成指定的网卡(我环境里的网卡名是:enp2s0f0),如下所示:

[root@k8s0 cni]# kubectl set env daemonset/calico-node -n kube-system IP_AUTODETECTION_METHOD=interface=enp2s0f0
daemonset.apps/calico-node env updated

问题解决

可以看到3个 calico-node 都恢复正常了:




我遇到的这个问题主要是由于:在kubernetes集群上,我还安装了用于构建镜像的 buildkiltd,它自动创建了个网卡,导致 calico 自动获取失败。也就是说最好不要再kubernetes集群上安装多余的服务(我这里的集群环境本身也不需要构建镜像,直接pull就可以了)。

另外:解决方法里明确指定了网卡,其实这是不好的,因为每个节点上有多个网卡时,不一定都是同一个网卡上绑定IP,如果实际情况是这样,将导致网卡再次分配失败。也就是说,最好是把多余的服务给去了,不要改calico的配置。

有关499. 【kubernetes】解决 k8s “BGP not established with” 错误的更多相关文章

  1. ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2

    大约一年前,我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞,我可以在一个地方轻松完成,而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje

  2. ruby-on-rails - 迷你测试错误 : "NameError: uninitialized constant" - 2

    我遵循MichaelHartl的“RubyonRails教程:学习Web开发”,并创建了检查用户名和电子邮件长度有效性的测试(名称最多50个字符,电子邮件最多255个字符)。test/helpers/application_helper_test.rb的内容是:require'test_helper'classApplicationHelperTest在运行bundleexecraketest时,所有测试都通过了,但我看到以下消息在最后被标记为错误:ERROR["test_full_title_helper",ApplicationHelperTest,1.820016791]test

  3. ruby-on-rails - 如何在 Rails View 上显示错误消息? - 2

    我是rails的新手,想在form字段上应用验证。myviewsnew.html.erb.....模拟.rbclassSimulation{:in=>1..25,:message=>'Therowmustbebetween1and25'}end模拟Controller.rbclassSimulationsController我想检查模型类中row字段的整数范围,如果不在范围内则返回错误信息。我可以检查上面代码的范围,但无法返回错误消息提前致谢 最佳答案 关键是您使用的是模型表单,一种显示ActiveRecord模型实例属性的表单。c

  4. 使用 ACL 调用 upload_file 时出现 Ruby S3 "Access Denied"错误 - 2

    我正在尝试编写一个将文件上传到AWS并公开该文件的Ruby脚本。我做了以下事情:s3=Aws::S3::Resource.new(credentials:Aws::Credentials.new(KEY,SECRET),region:'us-west-2')obj=s3.bucket('stg-db').object('key')obj.upload_file(filename)这似乎工作正常,除了该文件不是公开可用的,而且我无法获得它的公共(public)URL。但是当我登录到S3时,我可以正常查看我的文件。为了使其公开可用,我将最后一行更改为obj.upload_file(file

  5. ruby-on-rails - 错误 : Error installing pg: ERROR: Failed to build gem native extension - 2

    我克隆了一个rails仓库,我现在正尝试捆绑安装背景:OSXElCapitanruby2.2.3p173(2015-08-18修订版51636)[x86_64-darwin15]rails-v在您的Gemfile中列出的或native可用的任何gem源中找不到gem'pg(>=0)ruby​​'。运行bundleinstall以安装缺少的gem。bundleinstallFetchinggemmetadatafromhttps://rubygems.org/............Fetchingversionmetadatafromhttps://rubygems.org/...Fe

  6. ruby - #之间? Cooper 的 *Beginning Ruby* 中的错误或异常 - 2

    在Cooper的书BeginningRuby中,第166页有一个我无法重现的示例。classSongincludeComparableattr_accessor:lengthdef(other)@lengthother.lengthenddefinitialize(song_name,length)@song_name=song_name@length=lengthendenda=Song.new('Rockaroundtheclock',143)b=Song.new('BohemianRhapsody',544)c=Song.new('MinuteWaltz',60)a.betwee

  7. ruby-on-rails - 每次我尝试部署时,我都会得到 - (gcloud.preview.app.deploy) 错误响应 : [4] DEADLINE_EXCEEDED - 2

    我是Google云的新手,我正在尝试对其进行首次部署。我的第一个部署是RubyonRails项目。我基本上是在关注thisguideinthegoogleclouddocumentation.唯一的区别是我使用的是我自己的项目,而不是他们提供的“helloworld”项目。这是我的app.yaml文件runtime:customvm:trueentrypoint:bundleexecrackup-p8080-Eproductionconfig.ruresources:cpu:0.5memory_gb:1.3disk_size_gb:10当我转到我的项目目录并运行gcloudprevie

  8. ruby-on-rails - Rails 5 Active Record 记录无效错误 - 2

    我有两个Rails模型,即Invoice和Invoice_details。一个Invoice_details属于Invoice,一个Invoice有多个Invoice_details。我无法使用accepts_nested_attributes_forinInvoice通过Invoice模型保存Invoice_details。我收到以下错误:(0.2ms)BEGIN(0.2ms)ROLLBACKCompleted422UnprocessableEntityin25ms(ActiveRecord:4.0ms)ActiveRecord::RecordInvalid(Validationfa

  9. arrays - 这是 Ruby 中 Array.fill 方法的错误吗? - 2

    这个问题在这里已经有了答案:Arraysmisbehaving(1个回答)关闭6年前。是否应该这样,即我误解了,还是错误?a=Array.new(3,Array.new(3))a[1].fill('g')=>[["g","g","g"],["g","g","g"],["g","g","g"]]它不应该导致:=>[[nil,nil,nil],["g","g","g"],[nil,nil,nil]]

  10. ruby-on-rails - Ruby on Rails 计数器缓存错误 - 2

    尝试在我的RoR应用程序中实现计数器缓存列时出现错误Unknownkey(s):counter_cache。我在这个问题中实现了模型关联:Modelassociationquestion这是我的迁移:classAddVideoVotesCountToVideos0Video.reset_column_informationVideo.find(:all).eachdo|p|p.update_attributes:videos_votes_count,p.video_votes.lengthendenddefself.downremove_column:videos,:video_vot

随机推荐