夜莺开源项目在2023.7月底发布了V6版本,这个版本开始,项目目标不止于做一款开源监控系统,而是要做一款开源可观测性平台,不过路漫漫其修远兮,初期只是把日志数据源引入并完成了基本的可视化,后续会着力打通指标和日志的数据串联以及数据特征提取。欢迎小伙伴一起参与共建。夜莺V6版本开发了好几个月了,于2023.7月底发布了正式版,今天是8.7号,实际最新版本已经是v6.0.1了,V6相比之前的版本有重大的改进。本文给大家做一些重点介绍。1.项目目标V6版本开始,项目目标不止于监控平台的构建,转而构建可观测性平台。监控部分的功能已经渐趋完善,后面可能还会做一些长尾需求,但是基本功能已经非常完备了。作
先见见世面~说明书:https://www.bookstack.cn/read/nightingale-5.1-zh/02fff8d1f4025dfd.md操作:https://n9e.github.io/quickstart/compile/2022-04-0721_34_23-Nightingale.png产品架构Nightingale有四个核心功能:QueryProxy:承接前端时序数据查询请求,转发给时序库,并将时序库返回的结果返回给前端PushGateway:承接各类采集客户端的监控数据推送,然后把数据转存到后端多种时序库ConfManager:配置管理,比如告警规则、屏蔽规则、订阅
(一):夜莺介绍 夜莺监控(Nightingale)是一款国产、开源云原生监控分析系统,采用All-In-One的设计,集数据采集、可视化、监控告警、数据分析于一体。于2020年3月20日,在github上发布v1版本,已累计迭代60多个版本。从v5版本开始与Prometheus、VictoriaMetrics、Grafana、Telegraf、Datadog等生态紧密协同集成,提供开箱即用的企业级监控分析和告警能力,已有众多企业选择将Prometheus+AlertManager+Grafana的组合方案升级为使用夜莺监控。 夜莺监控,由滴滴开发和开源,并于2022年5月11日,捐赠
(一):夜莺介绍 夜莺监控(Nightingale)是一款国产、开源云原生监控分析系统,采用All-In-One的设计,集数据采集、可视化、监控告警、数据分析于一体。于2020年3月20日,在github上发布v1版本,已累计迭代60多个版本。从v5版本开始与Prometheus、VictoriaMetrics、Grafana、Telegraf、Datadog等生态紧密协同集成,提供开箱即用的企业级监控分析和告警能力,已有众多企业选择将Prometheus+AlertManager+Grafana的组合方案升级为使用夜莺监控。 夜莺监控,由滴滴开发和开源,并于2022年5月11日,捐赠
一官方网址1夜莺github网址:https://github.com/ccfos/nightingale2这Flashcat官网:https://flashcat.cloud/相关包下载可以在github的Releases里面下载也可以在Flashcat官网下载夜莺的定位:定位类似于grafana。grafana更擅长看图,夜莺更擅长告警规则的管理(主打的多个团队权限的管理,项目的协同等等)二夜莺V6架构(一)中心汇聚式部署方案Mysql:所有配置信息以及告警事件都存在mysql中,也可以用PG数据库(prometheus的告警事件存在内存里面,重启之后可能历史告警没有了),Redis:V6
目录(一)Kubernetest监控体系1.Kubernetes监控策略(二)K8s-ApiServer组件监控(1)我们先创建一个namespace来专门做夜莺监控采集指标(2)创建认证授权信息rbac (3)使用prometheus-agent进行指标采集①创建Prometheus的配置文件②部署PrometehusAgent(三)K8s-ControllerManager组件监控(1)创建prometheus的配置文件 (2)重新创建controller的endpoints(3)更改controller的bind-address(4)指标测试(四)K8s-Scheduler组件监
目录(一):如何把数据转发给多个时序库(二):监控仪表盘的配置(三):告警的配置管理 (1):告警规则①: 基础配置②:规则配置:分为Metric和Host机器类型的告警③: 生成配置④:通知配置 (2):内置规则 (3)屏蔽规则 (4)订阅规则 (5)活跃告警 (6)历史告警(三):时序指标(四):日志分析(五):链路追踪(六):基础设施(七):告警自愈(八):人员组织(九):系统配置(1)数据源:(2)通知设置:(十):对接邮箱告警案列配置 (1)创建告警规则 (2)配置邮箱SMTP进行告警 (3)触发告警(一):如何把数据转发给多个时序库 上一期讲了整个
目标客户用产品可能是功能设计好,也可能是因为响应快稳定可靠,例如滴滴用不了用高德,券商app故障受罚,微信凌晨服务崩溃,所以稳定性建设工作价值是保障客户体验,避免资损,社会负面舆论。故障生命周期处理围绕故障生命周期,在整个故障定位体系,可分为故障开始前,预案阶段,做量化分析找到潜在隐患;故障开始后,尽快发现定位故障直接原因,直接原因定位是为了止损,根因可以后续排查;故障恢复后就是复盘,行程TODOlist,针对性改进。预案阶段1.可观测性体系基础设施和软件架构都比较完善情况下并不能万事大吉,线上问题防不胜防,建设可观测体系是必需的。预防阶段两件事,埋点数据采集,数据组织,便于后续排障。可观测性
目标客户用产品可能是功能设计好,也可能是因为响应快稳定可靠,例如滴滴用不了用高德,券商app故障受罚,微信凌晨服务崩溃,所以稳定性建设工作价值是保障客户体验,避免资损,社会负面舆论。故障生命周期处理围绕故障生命周期,在整个故障定位体系,可分为故障开始前,预案阶段,做量化分析找到潜在隐患;故障开始后,尽快发现定位故障直接原因,直接原因定位是为了止损,根因可以后续排查;故障恢复后就是复盘,行程TODOlist,针对性改进。预案阶段1.可观测性体系基础设施和软件架构都比较完善情况下并不能万事大吉,线上问题防不胜防,建设可观测体系是必需的。预防阶段两件事,埋点数据采集,数据组织,便于后续排障。可观测性
开始之前Kubernetes是一个简单且复杂的系统,简单之处在于其整体架构比较简单清晰,是一个标准的Master-Slave模式,如下:但是,它又是一个复杂的系统,不论是Master还是Slave,都有多个组件组合而成,如上图所示:Master组件apiserver:API入口,负责认证、授权、访问控制、API注册与发现等。scheduler:负责资源调度。controller-manager:维护集群状态。Slave组件。kubelet:维护容器生命周期、CSI管理以及CNI管理。kube-proxy:负责服务发现和负载均衡。containerruntime(docker、container