PowerDotNet平台化软件架构设计与实现系列（11）：日志平台

努力，天赋，笑容，自信 2023-03-28 原文

所有后端应用几乎都会记录日志，日志系统可以统一抽象出来提供服务。

最近被Log4j2的安全漏洞刷屏了，作为开发人员的我只能咩哈哈几次表示日志处理太难了，只有折腾过的人才知道这里面的艰辛啊。

在实现PowerDotNet日志系统之前，参考调研了Flume、ELK、Scribe和kafka的日志解决方案，对比后最终选择Facebook的日志系统Scribe作为目标，实现了基于thrift协议（当然也支持http协议）无锁且异步的更高性能简洁而稳定的可扩展日志系统Power.XLogger。

本文讲讲PowerDotNet内置的日志平台系统。

环境准备

1、（必须）.Net Framework4.5+

2、（必须）MySQL或SqlServer或PostgreSQL或MariaDB或MongoDB或ElasticSearch

3、（必须）PowerDotNet数据库管理平台，主要使用DBKey功能

4、（必须）PowerDotNet配置中心Power.ConfigCenter

5、（必须）PowerDotNet注册中心Power.RegistryCenter

6、（必须）PowerDotNet基础数据平台Power.BaseData

7、（必须）PowerDotNet缓存平台Power.Cache

8、（必须）PowerDotNet消息平台Power.Message

9、（必须）PowerDotNet人员管理平台Power.HCRM，后续文章详细介绍

一、Scribe简介

Scribe是Facebook开源的日志收集系统，它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。

Scribe为日志的“分布式收集，统一处理”提供了一个可扩展的高容错的方案。

Scribe从各种数据源上收集数据，放到一个共享队列上，然后push到后端的中央存储系统上。

当中央存储系统出现故障时，Scribe可以暂时把日志写到本地文件中，待中央存储系统恢复性能后，Scribe把本地日志续传到中央存储系统上。

Scribe主要包括三部分，分别为Scribe Agent， Scribe和存储系统。

1、 Scribe Agent

Scribe Agent实际上是一个thrift client。向Scribe发送数据的唯一方法是使用thrift client， Scribe内部定义了一个thrift接口，用户使用该接口将数据发送给server。

2、Scribe

Scribe接收到thrift client发送过来的数据，根据配置文件，将不同topic的数据发送给不同的对象。Scribe提供了各种各样的store，如 file， HDFS等，Scribe可将数据加载到这些store中。

3、Store

Scribe中的Store也就是我们所理解的存储系统，当前Scribe支持非常多的Store，包括：

file（文件）

buffer（双层存储，一个主储存，一个副存储）

network（另一个Scribe服务器）

bucket（包含多个 store，通过hash的将数据存到不同store中）

null(忽略数据)

thriftfile（写到一个Thrift TFileTransport文件中）

multi（把数据同时存放到不同store中）

二、日志存储

PowerDotNet的日志平台设计借鉴了Scribe，也支持从各种数据源上收集数据，放到一个共享队列上，然后push或pull到后端的中央存储系统上。

不过考虑到不同的应用场景，这个共享队列被设计成动态可配置的日志容器，容器可以是主流的几种消息队列（RabbitMQ、MSMQ、RocketMQ、Kafka等），redis，本地缓存等。

当存储系统出现故障时，PowerDotNet也会把日志“消息”暂时（序列化）写到本地文件中，待存储系统恢复性能后，再把本地日志（反序列化）续传到中央存储系统上。这种日志记录容错思想其实比较简单直白，非常容易理解。

PowerDotNet内置的日志存储媒介（也就是中央存储系统）包括MongoDB、MySQL、MariaDB、PostgreSQL、SQLServer和ElasticSearch，也给Exceptionless和ELK预留了接口，后续开发考虑把Hive也加进去，毕竟对于日志系统而言，大数据量处理和较为完善的分析工具链是极其重要的参考指标。

在创建后端应用的时候，配置中心会自动分配一个记录日志的DBKey，默认为PostgreSQL，但是个人在公司里碰到的更多的是使用MongoDB或者ElasticSearch或者ELK。

配置好DBKey，日志系统自动生效。写代码的时候调用现有的PowerDotNet记录日志方法即可。

PowerDotNet记录日志方法默认是全异步收集，不会影响业务主流程。

PowerDotNet日志组件支持敏感信息脱敏，这也是非常常见的业务需求功能。

对比Scribe的存储系统，PowerDotNet.XLogger做了大量裁剪。

三、日志管理

1、获取DBKey

因为每个应用默认都配置了一个DBKey，所以查询应用的日志时，需要通过DBKey间接找到存储，最后再将查询数据显示出来。

考虑到由于日志量通常都非常庞大，所以我们设计日志系统的时候都需要考虑分片处理。

DBKey配置日志这种方式天然就适合日志分片存储，在日志发展到一定数据量级以后，不需要运维和DBA介入，直接换个DBKey或者通过DataX数据同步平台修改DBKey连接串就可以切换新的日志存储介质，历史日志如果需要，通过其他工具直接访问，简直不要太容易。

2、日志查询

日志查询界面自动根据应用适配DBKey找到自己的日志记录。

3、调用链查询

对于调用链路复杂冗长的接口，调用链查询支持非常重要，根据个人开发运维经验，在排查线上问题的时候，调用链查询功能发挥了非常直观高效的作用。

调用链支持多系统多应用的查询，不同系统的DBKey可能不同，数据存储在不同的数据库中，这时候需要我们自己在内存中进行聚合分页展示。

有些开源的优秀组件，如zipkin或SkyWalking+SkyApm，在你的服务中埋点相应代码，可以实现分布式链路追踪系统。

调用链查询对于排查调用异状非常有帮助。

四、其他

对于日志系统而言，我们几乎不会强调ACID、CAP、BASE这些要求。日志系统应该尽可能做到快速高效不影响主业务流程，如果在保证日志高可用的同时，能不丢数据那是最好的结果。

Power.XLogger默认推荐各应用使用AOP方式记录日志，统一日志记录格式，当然为了便于排查问题，也需要在某些步骤埋点记录特定日志。

对于某些系统，日志可能非常重要，比如支付、财务、账户等系统。

如果日志是业务逻辑里非常重要的一部分，尤其关键环节的重要日志，不但业务逻辑可能要用到，而且排查追踪问题也很有用处，这种情况下，就不建议直接使用日志平台了。

PowerDotNet对于这些日志敏感系统，都会在自身系统里建立日志表进行核心关键日志记录，当然也支持按需在Power.XLogger记录日志。

对于日志系统的埋点操作，建议使用Power.XLogger的异步批量处理方法，并且显式带上超时时间，Power.XLogger记录日志默认2秒超时，默认批量处理200条数据，这两个参数可通过配置中心动态调整。

日志队列堆积到一定阈值（默认20万条，可在配置中心动态配置）自动裁剪日志，防止系统内存不足或其他原因导致崩溃。

参考：

https://flume.apache.org

https://github.com/facebookarchive/scribe

https://kafka.apache.org

https://www.elastic.co/cn/products/logstash

https://www.elastic.co/guide/en/logstash/5.6/index.html

https://www.elastic.co/cn/products/kibana

https://www.elastic.co/guide/en/kibana/5.5/index.html

https://www.elastic.co/cn/products/elasticsearch

https://www.elastic.co/guide/en/elasticsearch/reference/5.6/index.html

https://elasticsearch.cn

https://www.elastic.co/cn/products/beats/filebeat

https://www.elastic.co/guide/en/beats/filebeat/5.6/index.html

PowerDotNet 平台 https noopener Scribe 软件设计

有关PowerDotNet平台化软件架构设计与实现系列（11）：日志平台的更多相关文章

ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征，我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现，但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
ruby - 安装libv8(3.11.8.13)出错，Bundler无法继续 - 2
运行bundleinstall后出现此错误:Gem::Package::FormatError:nometadatafoundin/Users/jeanosorio/.rvm/gems/ruby-1.9.3-p286/cache/libv8-3.11.8.13-x86_64-darwin-12.gemAnerroroccurredwhileinstallinglibv8(3.11.8.13),andBundlercannotcontinue.Makesurethat`geminstalllibv8-v'3.11.8.13'`succeedsbeforebundling.我试试gemin
软件测试基础 - 2
Ⅰ软件测试基础一、软件测试基础理论1、软件测试的必要性所有的产品或者服务上线都需要测试2、测试的发展过程3、什么是软件测试找bug，发现缺陷4、测试的定义使用人工或自动的手段来运行或者测试某个系统的过程。目的在于检测它是否满足规定的需求。弄清预期结果和实际结果的差别。5、测试的目的以最小的人力、物力和时间找出软件中潜在的错误和缺陷6、测试的原则28原则：20%的主要功能要重点测（eg：支付宝的支付功能，其他功能都是次要的）80%的错误存在于20%的代码中7、测试标准8、测试的基本要求功能测试性能测试安全性测试兼容性测试易用性测试外观界面测试可靠性测试二、质量模型衡量一个优秀软件的维度①功能性功
MIMO-OFDM无线通信技术及MATLAB实现（1）无线信道：传播和衰落 - 2
MIMO技术的优缺点优点通过下面三个增益来总体概括：阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下，MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中，可以获得复用增益，即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中，可以获得分集增益，即可靠性性能的改善。分集增益用独立衰落支路数来描述，即分集指数。在使用了空时编码的MIMO系统中，由于接收天线或发射天线之间的间距较远，可认为它们各自的大尺度衰落是相互独立的，因此分布式MIMO
【Java入门】使用Java实现文件夹的遍历 - 2
遍历文件夹我们通常是使用递归进行操作，这种方式比较简单，也比较容易理解。本文为大家介绍另一种不使用递归的方式，由于没有使用递归，只用到了循环和集合，所以效率更高一些！一、使用递归遍历文件夹整体思路1、使用File封装初始目录，2、打印这个目录3、获取这个目录下所有的子文件和子目录的数组。4、遍历这个数组，取出每个File对象4-1、如果File是否是一个文件，打印4-2、否则就是一个目录，递归调用代码实现publicclassSearchFile{publicstaticvoidmain(String[]args){//初始目录Filedir=newFile("d:/Dev");Datebeg
ruby - Arrays Sets 和 SortedSets 在 Ruby 中是如何实现的 - 2
通常，数组被实现为内存块，集合被实现为HashMap，有序集合被实现为跳跃列表。在Ruby中也是如此吗？我正在尝试从性能和内存占用方面评估Ruby中不同容器的使用情况最佳答案数组是Ruby核心库的一部分。每个Ruby实现都有自己的数组实现。Ruby语言规范只规定了Ruby数组的行为，并没有规定任何特定的实现策略。它甚至没有指定任何会强制或至少建议特定实现策略的性能约束。然而，大多数Rubyist对数组的性能特征有一些期望，这会迫使不符合它们的实现变得默默无闻，因为实际上没有人会使用它:插入、前置或追加以及删除元素的最坏情况步骤复
ruby - "public/protected/private"方法是如何实现的，我该如何模拟它？ - 2
在ruby中，你可以这样做:classThingpublicdeff1puts"f1"endprivatedeff2puts"f2"endpublicdeff3puts"f3"endprivatedeff4puts"f4"endend现在f1和f3是公共(public)的，f2和f4是私有(private)的。内部发生了什么，允许您调用一个类方法，然后更改方法定义？我怎样才能实现相同的功能(表面上是创建我自己的java之类的注释)例如...classThingfundeff1puts"hey"endnotfundeff2puts"hey"endendfun和notfun将更改以下函数定
ruby - Sinatra 中的全局救援和日志记录异常 - 2
如何在出现异常时指定全局救援，如果您将Sinatra用于API或应用程序，您将如何处理日志记录？最佳答案 404可以在not_found方法的帮助下处理，例如:not_founddo'Sitedoesnotexist.'end500s可以通过调用带有block的错误方法来处理，例如:errordo"Applicationerror.Plstrylater."end错误的详细信息可以通过request.env中的sinatra.error访问，如下所示:errordo'Anerroroccured:'+request.env['si