草庐IT

FC的日常维护与故障处理

码外狂徒——张三 2023-04-11 原文

日常操作维护

维护项目检查项正常状态维护周期
查看系统告警Fusion Compute上的告警无新增告警每天
检查Fusion Compute健康状态健康检查报告无“不合格”检查项每天
检查设备运行状态服务器、交换机和存储设备的指示灯状态指示灯显示正常每天
检查设备运行环境温湿度符合运行环境对温度和湿度的要求每周
检查设备运行环境空气质量符合运行环境对空气质量的要求每周
检查设备运行环境防尘情况无明显尘土附着每周
查看预警整改公告"Huawei Enterprise Product & Service Support - Huawei"选择“公告>产品公告>预警公告>IT>云计算数据中心>FusionSphere>FuserionSphere”查看预警整改公告满足预警通知的要求每月
  • 为保证系统长期正常、稳定的运行,维护工程师需要定期对系统进行检查,并根据检查出的异常结果排除故障。

系统配置(1)

  • 管理员可以根据业务需求对Fusion Compute系统配置参数做出调整

    • 配置域认证信息

    • 更行License

    • 修改系统LoGo

    • 配置登录超时时间

    • 配置资源调度周期

    • 配置SNMP管理站

    • VRM单节点扩展为主备部署

集群化控制管理

自动化级别:手动、自动

衡量因素:CPU、内存、CPU+内存

阈值:保守、较保守、中等、较激进、激进

阈值根据衡量因素的使用情况迁移虚拟机或主机。

为什么没有默认开启DPM或者DRS?

开启DRS的条件时要开启DPM,主机或虚拟机随时都处于就绪的状态,随时都流量的产生,造成资源浪费,设备的性能会变差。

IMC,屏蔽底层的CPU差异;在虚拟机迁移的过程中,不会因为对端的CPU版本不一致而导致迁移失败,目前只支持INTEL系列

FusionCompute账户

  • FUsionCompute账户分为:本地用户、域用户、接口对接用户。本地用户用于登录、管理系统;在配置域后可用域用户登录系统;接口对接用户用于其他用户对接。

  • Fusion'Compute登录账户如下表:

登录模式默认账户/密码账户权限
普通模式admin/lassS@PORTAL-CLOUD8!具有系统管理员权限
三员分立模式系统管理员:sysadmin/Sysadmin#安全管理员:secadmin/Secadmin#安全审计员:secauditor/Secauditor#系统管理员:仅具有系统业务操作维护权限,以及创建、删除用户的权限。安全管理员:仅具有用户、角色的权限管理权,但不能创建用户。安全审计员:仅有日志查看和日志导出权限,用于对其他用户的操作进行审查。

备份与恢复策略

  • 维护工程师在对系统进行重大操作(如升级、重大数据调整等)前,为了保证Fusion Compute在出现异常或为达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低,需要提前对VRM节点的数据进行备份。Fusion Compute同时支持对关键数据进行自动备份和手工备份。

  • 在对系统部件进行重大操作(如升级、重大数据调整等)后,系统可能出现异常或未达到预期结果。此时,需要对其进行回退,回退过程中需要进行数据恢复操作。

主机和集群创建流程

  • Fusion Compute主机和集群的故障处理,可以参考该流程顺序进行检查。

  • 主机和集群的故障可能会涉及如下关键故障点

    • 站点故障

    • 集群故障

    • 主机故障

    • 系统接口故障

 

主机和集群故障点

  1. 站点故障:不能使用FusionCompute,不能配置级联

  2. 集群故障:不能创建、修改、移除集群,集群配置故障

  3. 主机故障:不能添加、修改、移除主机,主机配置故障

  4. 系统接口故障:网口绑定异常,业务管理接口异常,存储接口异常

系统接口管理

  • FusionCompute管理如下几类系统接口:

    • 绑定网口

      • 绑定主机的网口,以提高网络的可靠性

      • 一般时两个及以上的业务口做绑定,目的是提升业务可靠性,增加带宽

    • 存储接口

      • 在主机中添加存储接口,实现主机与存储设备对接

      • 添加多个存储接口,可以实现存储的多路径传输

      • 链接存储网口,使其多路径传输

    • 业务管理接口

      • 承载一些特殊业务流量的系统接口,这些特殊业务包括热迁移虚拟机、虚拟机主机容灾、虚拟化SAN存储悉心跳检测等。

      • 是服务器的业务数据访问接口,还是与VRM链接的接口,VRM通过心跳与VM/主机连接

    • 管理口:mgmt,他是用于管理服务器的接口,相当于管理员

存储资源池配置流程

  • Fusion Compute存储池的故障处理,可以参考该流程顺序进行检查。

  • 存储池可能会涉及到如下关键故障点

    • 存储资源故障

    • 存储设备故障

    • 数据存储故障

    • 虚拟磁盘故障

 

存储资源池故障点

  1. 存储资源故障:不能添加、修改、删除存储资源

    • 不能关联存储资源

  2. 存储设备故障:扫描不到存储设备

  3. 数据存储故障:添加、修改、移除数据存储异常,关联、解关联主机异常

    • 数据存储异常

  4. 虚拟磁盘故障:创建、绑定、解绑定、删除虚拟磁盘异常

    • 调整容量异常

    • 快照异常

    • 迁移异常

网络池创建流程

  • FusionCompute网络池的故障处理,可以参考该流程顺序进行检查。

  • 网络池肯能会涉及到如下关键故障点:

    • 分布式交换机故障

    • 上行链路故障

    • VLAN池故障

    • 子网故障

    • 端口组故障

  • 因网络池的各个组件关联紧密,可以统一概括成如下故障

    • 虚拟机之间通讯故障

    • 虚拟机和外部网络通讯故障

 

虚拟机的创建方式

  • 创建空虚拟机

    • 创建空虚拟机时,可以选择创建在主机或集群上,并可自定义CPU、内存、磁盘、网卡等规格

    • 空虚拟机创建完成后,需要在上面安装操作系统

  • 使用模板创建虚拟机

    • 按模板部署虚拟机或模板导入虚拟机时,以下属性继承自模板,其他属性可以自定义。

    • 虚拟机的操作系统类型和操作系统版本号

    • 虚拟机磁盘的数量和容量

    • 虚拟机的网卡数

  • 使用虚拟机创建虚拟机

    • 克隆虚拟机过程中,以下属性继承自原虚拟机,其他属性可自定义。

    • 虚拟机的操作系统类型和操作系统版本号

    • 虚拟机磁盘的数量和容量

    • 虚拟机的网卡数

    • 如果有一个要经常克隆的虚拟机,可以将该虚拟机转换为模板

虚拟机创建流程

  1. 选择创建位置

    • 集群or主机

  2. 设置虚拟机属性

    • 虚拟机名称

    • 操作系统类型、版本号

    • 硬件规格(CPU/内存/磁盘数/网卡数)

    • 虚拟机蓝屏策略

  3. 设置网卡和磁盘

    • 网卡所属的分布式交换机和端口组

    • 磁盘属性(数据存储、配置模式、容量、是否受快照影响、持久化

  4. 创建虚拟机

    • 确认信息

  • Fusion Compute三种虚拟机创建方式都需要经过“选择创建位置”、“设置虚拟机属性”、“设置网卡和磁盘”和“创建虚拟机”四个过程

  • 虚拟机创建、调整、回收、操作和虚拟机模板转换、管理等故障都可以参考该流程逐一检查

两个虚拟机通信情况分析:

  1. 同主机、同OVS、同VLAN 直接通信

  2. 同主机、同OVS、不同VLAN 因为是OVS是二层,所以不具备路由交换功能,需要通过上行接口到三层物理交换机获取VM2的网关

  3. 不同主机、同OVS、同VLAN由VM3经过主机2的上行接口,达到三层交换机交换网关,获取路由,然后访问主机1的VM1

  4. 不同主机、不同OVS、相同VLAN 没办法通信

  5. 不同主机、不同OVS、不同VLAN 由VM发出保文,从上行接口出去到达三层交换获取路由

两个虚拟机不同的原因

  1. 同主机、同OVS、同VLAN对端VM IP网段是否为同一网段、对端的防火墙杀毒软件没关彻底、VM或主机异常

  2. 同主机、同OVS、不同VLAN 对端VM IP网段是否为同一网段、对端的防火墙杀毒软件没关彻底、VM或主机异常

  3. 同主机、同OVS、不同VLAN 对端VM IP网段是否为同一网段、对端的防火墙杀毒软件没关彻底、网络连接异常、端口配置

有关FC的日常维护与故障处理的更多相关文章

  1. ruby - 使用 ruby​​ 将 HTML 转换为纯文本并维护结构/格式 - 2

    我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

  2. ruby - 如何指定 Rack 处理程序 - 2

    Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack

  3. Ruby-vips 图像处理库。有什么好的使用示例吗? - 2

    我对图像处理完全陌生。我对JPEG内部是什么以及它是如何工作一无所知。我想知道,是否可以在某处找到执行以下简单操作的ruby​​代码:打开jpeg文件。遍历每个像素并将其颜色设置为fx绿色。将结果写入另一个文件。我对如何使用ruby​​-vips库实现这一点特别感兴趣https://github.com/ender672/ruby-vips我的目标-学习如何使用ruby​​-vips执行基本的图像处理操作(Gamma校正、亮度、色调……)任何指向比“helloworld”更复杂的工作示例的链接——比如ruby​​-vips的github页面上的链接,我们将不胜感激!如果有ruby​​-

  4. ruby - Faye WebSocket,关闭处理程序被触发后重新连接到套接字 - 2

    我有一个super简单的脚本,它几乎包含了FayeWebSocketGitHub页面上用于处理关闭连接的内容:ws=Faye::WebSocket::Client.new(url,nil,:headers=>headers)ws.on:opendo|event|p[:open]#sendpingcommand#sendtestcommand#ws.send({command:'test'}.to_json)endws.on:messagedo|event|#hereistheentrypointfordatacomingfromtheserver.pJSON.parse(event.d

  5. ruby - 如何使用 Ruby HTTP::Net 处理 404 错误? - 2

    我正在尝试解析网页,但有时会收到404错误。这是我用来获取网页的代码:result=Net::HTTP::getURI.parse(URI.escape(url))如何测试result是否为404错误代码? 最佳答案 像这样重写你的代码:uri=URI.parse(url)result=Net::HTTP.start(uri.host,uri.port){|http|http.get(uri.path)}putsresult.codeputsresult.body这将打印状态码和正文。

  6. ruby - 我可以使用 RVM 为所有用户维护单一版本的 Ruby 吗? - 2

    我喜欢RVM。我意识到它的主要用例是让不同的用户在不同版本的Ruby之间切换。但是假设我正在将Rails应用程序部署到服务器,并且我只想运行单个版本的Ruby。特别是,我想要1.9.2,用RVM安装它很容易,但没有它就很痛苦。有没有一种方法可以让我说“我希望这是所有用户的规范Ruby安装”(连同它的所有gem),而不必手动创建一堆符号链接(symboliclink)并在每次更新到更新时更改它们Ruby版本? 最佳答案 以root身份安装RVM并执行sudorvmuse1.9.2--default。任何采购/usr/local/rvm

  7. ruby-on-rails - 使用 Ruby 正确处理 Stripe 错误和异常以实现一次性收费 - 2

    我查看了Stripedocumentationonerrors,但我仍然无法正确处理/重定向这些错误。基本上无论发生什么,我都希望他们返回到edit操作(通过edit_profile_path)并向他们显示一条消息(无论成功与否)。我在edit操作上有一个表单,它可以POST到update操作。使用有效的信用卡可以正常工作(费用在Stripe仪表板中)。我正在使用Stripe.js。classExtrasController5000,#amountincents:currency=>"usd",:card=>token,:description=>current_user.email)

  8. ruby-on-rails - Rails 处理 .Erb 与 Nils - 2

    当profile为nil时,总是让我感到悲伤...我该怎么办? 最佳答案 在View中使用变量之前,始终检查变量是否为nil。我确信这个问题有更优雅的解决方案,但这应该能让您入门。 关于ruby-on-rails-Rails处理.Erb与Nils,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/2709605/

  9. 最新版人脸识别小程序 图片识别 生成二维码签到 地图上选点进行位置签到 计算签到距离 课程会议活动打卡日常考勤 上课签到打卡考勤口令签到 - 2

    技术选型1,前端小程序原生MINA框架cssJavaScriptWxml2,管理后台云开发Cms内容管理系统web网页3,数据后台小程序云开发云函数云开发数据库(基于MongoDB)云存储4,人脸识别算法基于百度智能云实现人脸识别一,用户端效果图预览老规矩我们先来看效果图,如果效果图符合你的需求,就继续往下看,如果不符合你的需求,可以跳过。1-1,登录注册页可以看到登录页有注册入口,注册页如下我们的注册,需要管理员审核,审核通过后才可以正常登录使用小程序1-2,个人中心页登录成功以后,我们会进入个人中心页我们在个人中心页可以注册人脸,因为我们做人脸识别签到,需要先注册人脸才可以进行人脸比对,进

  10. ruby-on-rails - 如何在多个环境中处理 OmniAuth 回调? - 2

    我有一个应用程序专门使用Facebook作为身份验证提供程序,并正确设置了生产模式的回调。为了让它工作,您需要为您的Facebook应用程序提供一个站点URL和一个用于回调的站点域,在我的例子中是http://appname.heroku.com和appname。heroku.com分别。问题是我的Controller设置为只允许经过身份验证的session,所以我无法在开发模式下查看我的应用程序,因为Facebook应用程序的域显然没有设置为本地主机。如何在不更改Facebook设置的情况下解决这个问题? 最佳答案 创建另一个域l

随机推荐