草庐IT

「电力行业」告别传统运维,拥抱全链路“云上监控”

谐云 2023-04-08 原文

随着电力行业信息化建设的快速发展,尤其是随着云原生和分布式技术在电力信息化建设中的大范围推广和应用,电力行业云上业务系统变得更加复杂,业务系统内部节点和互相之间的健康关联影响也越来越动态多变,给资源管理、系统监控、运行维护工作带来了极大挑战。

目前,在电力“双态”混合发展的情况下,敏态业务不断增多,提高了应用效率的同时,也让资源规模变得庞大,应用的拓扑结构和通讯也变得更复杂、更难监控。

同时,在云上分布式业务架构中,大多数的应用故障也不再来自于单一应用内部,而是来自于不同应用或服务之间的复杂交互,只通过传统的监控手段或人工运维的方式已经不能快速完成云上资源主动感知、状态跟踪和业务故障定界。

另外,由于传统的网络旁路监控是基于交换机实现的,而云上业务通常采用三层网络模型,业务之间的流量不经过交换机,传统的网络监控不能有效支撑云上场景,监控能力失效。

因此,在大规模化的云上业务发展中,电力企业缺少针对云上业务复杂调用的梳理和监控能力,亟需强化云上运维监控能力,自动识别并形成云上业务及相关资源容量的全链路拓扑,实现云上业务监控全覆盖目标,提升云上业务系统健康管理水平和业务安全稳定运行水平。

谐云为多个电力省公司建设实现云上业务全链路监控及健康分析平台,基于eBPF技术以业务无感知无侵入的方式采集业务运行链路关键指标数据,集成易扩展的Prometheus采集云上应用指标以及主机与容器资源信息数据。

同时,谐云监控平台兼容阿里云、华为云及电力容器云平台的数据采集,将采集的原始数据经过数据聚合分析、业务应用调用关系关联、业务数据集成等处理,提供多维度的智能分析与高度可视化界面,实现电力云上业务全链路监控、资源容量精细化管理和业务系统健康度分析。

● 云上业务全链路监控

无感知业务指标采集:基于eBPF技术,以无侵入的方式,获取包括云平台指标、业务运行指标以及业务链路各层面的指标数据,涵盖运行时状态数据、精细化资源容量情况和业务请求链路数据,不影响业务运行;
云上业务全链路监控:自动构建云上全网流量业务拓扑关系图,提供单次请求故障发生时刻的网络质量和应用响应回溯的功能,可准确定位是网络问题还是应用问题,为云上业务提供全链路端到端的监控手段

● 资源容量精益化管理

业务资源容量分析:以业务视角分析业务系统运行过程中全链路各个层面的资源容量情况,对用户访问量与资源使用量进行精准统计,覆盖业务本身、依赖的组件节点等各个层面的资源容量情况;
系统资源异常识别:通过系统监控分析,自动识别业务系统容量异常使用现象,为信息系统的故障分析与容量规划提供有效支撑。
● 业务系统健康度分析

业务系统健康分析:根据业务系统运行方式(节点数)、告警数量、资源容量、中断时长、安全等保评估、漏洞数量等节点信息,构建业务健康算法模型,结合电网知识库,对业务系统健康数据进行融合分析,形成云上业务系统健康度视图;在系统出现某一故障后,可快速判断并分析故障对相关业务健康度的影响,构建处理模型,为故障影响判断、业务系统整体稳定运行提供直观管控手段;
智能告警预测:通过机器学习算法构建重点业务系统黄金指标数据模型,比如访问量、成功率、相应时间等,支持通过核心指标自动识别业务健康,也支持配置并定时访问业务特定健康检查URL识别业务健康,实现业务系统异常的智能预警,及时发现系统问题风险,提高系统运行健康指数。

随着电网信息化建设的高速发展,云上业务规模的不断扩大,电力调度各项业务需要进入精细化运维、智能化管理的时代。

精细化运维,需要精确的指标采集以及对业务运行的全面感知以形成云上业务全链路管控及健康分析;智能化管理,需要坚持创新驱动发展,加快大数据分析和智能告警预测,及时发现系统问题风险,从而摆脱调度业务运行维护对于大量人力投入的依赖,已成为提升调度业务能力的内在需要和必然选择。

有关「电力行业」告别传统运维,拥抱全链路“云上监控”的更多相关文章

  1. Observability:从零开始创建 Java 微服务并监控它 (二) - 2

    这篇文章是继上一篇文章“Observability:从零开始创建Java微服务并监控它(一)”的续篇。在上一篇文章中,我们讲述了如何创建一个Javaweb应用,并使用Filebeat来收集应用所生成的日志。在今天的文章中,我来详述如何收集应用的指标,使用APM来监控应用并监督web服务的在线情况。源码可以在地址 https://github.com/liu-xiao-guo/java_observability 进行下载。摄入指标指标被视为可以随时更改的时间点值。当前请求的数量可以改变任何毫秒。你可能有1000个请求的峰值,然后一切都回到一个请求。这也意味着这些指标可能不准确,你还想提取最小/

  2. 酷早报:10月21日全球Web3加密行业重大资讯大汇总 - 2

    2022年10月21日星期五【数据指标】加密货币总市值:$0.95万亿BTC市值占比:38.51%恐慌贪婪指数:23极度恐慌 【今日快讯】1、【政讯】1.1.1、美联储布拉德:市场预期美联储11月会加息75个基点1.1.2、美联储哈克:将维持加息一段时间1.2、美国10年期国债收益率触及4.197%,为2008年6月以来最高1.3、法国数字转型部长:政府将专注于DeFi和Web31.4、巴西ATM机将于11月3日起支持USDT1.5、美众议院副议长将于11月初加入a16zCrypto担任政府事务主管1.6、香港数字资产托管机构FirstDigitalTrust首席执行官:香港仍是安全

  3. 从零开始学习Linux运维,成为IT领域翘楚(二) - 2

    文章目录🔥Linux系统目录结构🔥Linux用户和用户组🔥Linux用户管理🔥Linux系统目录结构文件系统组织结构⭐ /lib系统开机所需要最基本的动态链接共享库,其作用类似于Windows里的DLL文件。几乎所有的应用程序都需要用到这些共享库。⭐ /lost+found一般情况下是空的,当系统非法关机后,这里就存放了一些文件。⭐ /etc所有系统管理所需要的配置文件和子目录my.conf⭐ /usr用户的很多应用程序和文件都放在这个目录下。⭐ /bin是Binary的缩写,这个目录存放着经常使用的命令⭐ /sbin(usr/sbin、/usr/local/sbin)sbin就是peruse

  4. ruby-on-rails - 监控多个 Rails 应用程序 - 2

    是否可以在我的服务器上运行任何工具来监控多个Rails应用程序?我需要监控每个应用程序收到的请求数、每个应用程序使用了多少内存、使用了多少CPU以及其他类似的统计信息。我需要查看每个单独的Rails应用程序的统计信息。 最佳答案 我建议你试试NewRelicRPM.免费版:RPMLiteisthemostwidelyusedsolutionforbasicwebapplicationmonitoring.RPMLiteprovidesapplicationmonitoringforunlimitedJava,RubyorJRubya

  5. ruby-on-rails - 监控 RTMP 流,如果可用则记录 - 2

    我正在寻找一种方法来监视流上的事件,以便我可以确定是否有任何内容通过流。如果有,我将开始使用rtmpdump进行录制。我想象这是通过运行一个每60秒检查一次流的cron任务来实现的。如果它确定流正在通过,则调用rtmpdump开始记录它。如果没有,则什么都不做,并在60秒后再次检查。由于rtmpdump只是在没有流数据时出现错误,因此尝试使用它来监视流似乎不是一个好主意,但也许我错了。如果我在逐个案例的基础上手动执行此操作会很容易,但我正在尝试自动执行自动录制流的任务(如果它们可用)。有没有人遇到过这样做的方法?也许我可以在命令行(linux)中使用其他一些工具?如果有帮助,我正在使用

  6. ruby - 如何在 Node.js/RoR 中监控 20 个网站(Ping 或 HTTP)的正常运行时间 - 2

    每5分钟(例如)ping20个网站的列表以了解该网站是否响应HTTP202的最佳方法是什么?最简单的想法是将20个URLS保存在数据库中,然后运行数据库并对每个URL执行ping操作。但是,当一个人不回答时会发生什么?之后的人会怎样?此外,是否有更好但更简单的解决方案?恐怕该列表会增长到20000个网站,然后没有足够的时间在我需要ping的5分钟内全部ping通它们。基本上,我是在描述PingDom、UptimeRobot等的工作原理。我正在使用node.js和RubyonRails构建这个系统。我也倾向于使用MongoDB来保存所有ping和监控结果的历史记录。建议?非常感谢!

  7. ruby-on-rails - Rails 中的用户监控 - 2

    我们有一个带有广泛管理部分的应用程序。我们对功能有点满意(就像您一样),并且正在寻找一些快速简便的方法来监控“谁使用什么”。理想情况下,一个简单的gem将允许我们在每个用户的基础上跟踪Controller/操作,以构建使用的功能和未使用的功能的图片。任何你会推荐的..谢谢主场 最佳答案 我不知道有什么流行的gem或插件可以解决这个问题;过去,我在ApplicationController中将这种审计实现为before_filter:从内存中:classApplicationControllercurrent_user,:contro

  8. 中国民用飞机制造行业市场现状规模及发展战略规划报告2021-2027年 - 2

    中国民用飞机制造行业市场现状规模及发展战略规划报告2021-2027年详情内容请咨询鸿晟信合研究院!【全新修订】:2022年2月【撰写单位】:鸿晟信合研究研究【报告目录】第1章:中国民用飞机制造行业发展综述1.1民用飞机制造行业概述1.1.1民用飞机的概念1.1.2飞机制造的概念1.1.3民用飞机的分类1.2民机制造行业周期特性1.2.1影响行业周期的因素(1)GDP增速分析(2)运量增量分析(3)飞机更替分析(4)航空公司获利水平1.2.2行业现阶段周期分析1.2.3行业现阶段景气分析1.3民机制造信息化分析1.3.1信息化技术应用状况分析(1)MDO技术应用分析(2)供应链协同研发分析(3

  9. 通过可视化运维配置,实现故障秒级自愈 - 2

    急促的告警铃声响彻寂静的夜晚。对运维人来说,晚间值守耗费更大的精力,往往一个简单的磁盘使用率告警通知,就不得不爬起来进行处理,毕竟告警无小事,对于小问题,运维人也不能心存侥幸心理。虽然有着值班人员和团队的支撑,但频繁的告警还是让运维人员精疲力竭,如何让系统的稳定性提高,减轻一线人员的工作量,减轻一线人员的压力?通过智能运维,实现故障自愈将成为不可避免的选择。故障自愈是提升企业网络系统可用性和降低故障处理的人力投入,实现故障自愈从"人工处理"到"无人值守"的变革。通过实时发现告警,进行预诊断分析,判断告警类型和级别,如果是一般告警,平台进行自动恢复,如果是严重复杂告警则通过告警通知、运维工单等形

  10. 云上数据变革:Databend Cloud 正式发布 - 2

    2023年4月20 日,DatabendCloud经历了近两年的打磨终于发布了!🎉此次发布会由北京数变科技有限公司【DatabendLabs】联合阿里云共同举办。DatabendCloud借助于云原生数仓Databend实现了云简单易用的大数据分析场景。以下内容来自Databend联合创始人-王吟、DatabendCloud平台负责人-李亚舟以及阿里云智能资深产品运营专家-蔡亮伟,在本次发布会上的分享总结。🙋本次发布会分为三个部分:第一部分:王吟,李亚舟分享:「 云上数据变革,DatabendCloud发布」第二部分:蔡亮伟分享:「阿里云对象存储OSS, 构建企业级数据湖底座」第三部分:在阿里

随机推荐