草庐IT

老杨说运维 |统一监控的现状需求与实现目标分析

擎创夏洛克AIOps 2023-11-13 原文

前言:

老杨,擎创科技创始人兼CEO。作为从业20年以上的运维行业老兵,在不断的实践过程中看到客户需求侧出现了诸多变化。特别在疫情之后,企业级客户的需求呈现两方面的变化。

1.环境变化驱使业务变化。受疫情影响,很多业务只能在线上开展,倒逼企业对数字化转型的步伐速度提出了更高的要求。

2.业务量猛增。由于大量业务在线上进行,运维工作负荷变得巨量化、复杂化,运维工作的效率亟需得到提升。

那么这些变化意味着什么?从这些变化的角度来看,未来运维建设应该怎样做?它的趋势又如何?请听老杨细细道来。

一、智能运维的发展现状和趋势

从2018年至2020年,很多企业客户刚刚了解到智能运维,认为算法加上传统运维即是智能运维,提出的需求多为点状的、尝试性的,比如告警抑制、指标异常检测、交易多维分析、趋势预测、容量预测、根因定位和故障自愈等。随着实践的加深,在2020年下半年到2022年,智能运维建设的立项出现了更多的变化,点状的场景建设逐渐向运维数据治理转变。以银行为例,某些国有大行、股份制商业银行、农信银行、城市商业银行等,在建设统一运维平台或运维数据中台时,逐渐把数据治理作为其中一个重要的需求,在建设过程中不再是完成告警的无机结合,而是把过往的点状需求融合进新的平台建设里,逐渐把AIOps作为一种扎实落地的场景进行实现。

十四五期间,人民银行及银保监会印发了《金融科技发展规划(2022-2025年)》,其中第一次提到运维大数据态势感知这一新概念,指的是要去构建以运维大数据态势感知能力为基础的统一监控平台,要求全方位监测到科技运营状况。同时,2021年初Gartner提出了全面可观测性的新思想,这与运维大数据态势感知实际上是类似的概念。这意味着,近几年的智能运维建设将围绕此概念进行展开。

二、为什么企业迫切需要统一监控?

天下大势,分久必合。随着数字化进程的加深,企业在分治了很久以后,开始进入到统一运维管理的阶段。由于“分久”,出现了敏稳两态不同的专业领域,传统企业运维的历史包袱很重,一些稳态的核心应用无法完全转移到敏态环境中,因此导致了数据的多样化、复杂程度极高等特点,比如日志数据、告警数据、调用链数据、拓扑数据以及流程产生的信息数据等,导致分治变得十分麻烦。另外,这些繁冗复杂的数据视角各异,没有可以从某一种业务视角或组件视角去看多样化工具的能力,加之混合云的出现,很多业务转移到公有云或私有云上,使得数据孤岛状态加重,治理起来更加困难。

我们从几个国有大行以及国资背景的物流企业的真实实践中,总结出来的相似典型需求如下。

三、现状需求与实现目标分析

1.现状需求——国有大行

总行方面

  • 支撑应急抢修等跨专业领域运维场景的力度不强
  • 支撑云等新技术的转型发展不够
  • 依赖厂商产品,数据壁垒严重

分行方面

  • 监控覆盖不全,颗粒度不够
  • 缺乏统一规划,也没有数据分析、智能化演进的规划
  • 全行运维标准不统一,运维经验无法共享、沉淀

2.现状需求——物流领袖

  • 监控工具种类繁多,缺乏全局视角,难以整合
  • 运维监控数据快速增长,尚未有效整合
  • 缺少智能运维分析手段,联动能力不足
  • 欠缺知识共享系统,未能对运维经验有效积累

需求总结:希望有一种手段能够通过人机合作的方式来完成知识的共享,把人的能力逐渐地变成一种组织和平台的能力。

3.实现目标——国有大行

  • 完成运维工具的一体化转型
  • 覆盖云上云下全技术栈
  • 实现工具建设自主可控,符合信创标准
  • 支撑全行运维智能化转型升级

4.实现目标——物流领袖

  • 整合监控数据及工具,提升统一协作的能力
  • 以解决实际运维问题为目的,实现智能监控
  • 化被动排障为主动清障,挖掘数据价值
  • 基于信创要求,对运维相关技术栈完成逐步替代

因此,统一监控一定是一种必然的趋势即分久必合的趋势。它能够兼顾到云上云下所需要的部署模式,兼容传统环境的垂直管理需求,进而形成一致的数据标准,包括指标体系、日志规范、标准化告警等,实现以运维对象为视角,从业务到系统直至基础资源自上而下的统一观测、统一采集和统一监控。并且,在完成统一的过程中,做好信创的替换,具备对国内信创环境的兼容,实现国内自主生态合作。


更多运维思路和案例我们将持续更新,敬请期待~

关注我们,更新不迷路~

有关老杨说运维 |统一监控的现状需求与实现目标分析的更多相关文章

  1. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  2. ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2

    我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征,我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现,但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden

  3. 叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2

    导读:随着叮咚买菜业务的发展,不同的业务场景对数据分析提出了不同的需求,他们希望引入一款实时OLAP数据库,构建一个灵活的多维实时查询和分析的平台,统一数据的接入和查询方案,解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型,最终引入ApacheDoris作为最终的OLAP分析引擎,Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图,在叮咚买菜数十个业务场景中广泛应用。作者|叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月,是一家专注美好食物的创业公司。叮咚买菜专注吃的事业,为满足更多人“想吃什么”而努力,通过美好食材的供应、美好滋味的开发以及美食品牌的孵

  4. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  5. Observability:从零开始创建 Java 微服务并监控它 (二) - 2

    这篇文章是继上一篇文章“Observability:从零开始创建Java微服务并监控它(一)”的续篇。在上一篇文章中,我们讲述了如何创建一个Javaweb应用,并使用Filebeat来收集应用所生成的日志。在今天的文章中,我来详述如何收集应用的指标,使用APM来监控应用并监督web服务的在线情况。源码可以在地址 https://github.com/liu-xiao-guo/java_observability 进行下载。摄入指标指标被视为可以随时更改的时间点值。当前请求的数量可以改变任何毫秒。你可能有1000个请求的峰值,然后一切都回到一个请求。这也意味着这些指标可能不准确,你还想提取最小/

  6. 基于C#实现简易绘图工具【100010177】 - 2

    C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.

  7. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落 - 2

     MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO

  8. 【Java入门】使用Java实现文件夹的遍历 - 2

    遍历文件夹我们通常是使用递归进行操作,这种方式比较简单,也比较容易理解。本文为大家介绍另一种不使用递归的方式,由于没有使用递归,只用到了循环和集合,所以效率更高一些!一、使用递归遍历文件夹整体思路1、使用File封装初始目录,2、打印这个目录3、获取这个目录下所有的子文件和子目录的数组。4、遍历这个数组,取出每个File对象4-1、如果File是否是一个文件,打印4-2、否则就是一个目录,递归调用代码实现publicclassSearchFile{publicstaticvoidmain(String[]args){//初始目录Filedir=newFile("d:/Dev");Datebeg

  9. ruby - Arrays Sets 和 SortedSets 在 Ruby 中是如何实现的 - 2

    通常,数组被实现为内存块,集合被实现为HashMap,有序集合被实现为跳跃列表。在Ruby中也是如此吗?我正在尝试从性能和内存占用方面评估Ruby中不同容器的使用情况 最佳答案 数组是Ruby核心库的一部分。每个Ruby实现都有自己的数组实现。Ruby语言规范只规定了Ruby数组的行为,并没有规定任何特定的实现策略。它甚至没有指定任何会强制或至少建议特定实现策略的性能约束。然而,大多数Rubyist对数组的性能特征有一些期望,这会迫使不符合它们的实现变得默默无闻,因为实际上没有人会使用它:插入、前置或追加以及删除元素的最坏情况步骤复

  10. ruby - "public/protected/private"方法是如何实现的,我该如何模拟它? - 2

    在ruby中,你可以这样做:classThingpublicdeff1puts"f1"endprivatedeff2puts"f2"endpublicdeff3puts"f3"endprivatedeff4puts"f4"endend现在f1和f3是公共(public)的,f2和f4是私有(private)的。内部发生了什么,允许您调用一个类方法,然后更改方法定义?我怎样才能实现相同的功能(表面上是创建我自己的java之类的注释)例如...classThingfundeff1puts"hey"endnotfundeff2puts"hey"endendfun和notfun将更改以下函数定

随机推荐