一份来自滴滴运维工程师的监控系统建设心得

高家升 2018-11-15 10:10:47

本文根据dbaplus社群第169期线上分享整理而成

监控，是运维的眼睛，是稳定性建设中最重要的一环。

一般来讲，基础监控系统的主要功能就是发现问题。

故障发生前，通过监控的看图巡检，发现隐患；故障发生时，通过实时的告警，快速发现问题，定位问题所在；故障发生后，使用过去的历史数据图表，进行事后复盘，避免下次发生。

本篇文章，我们不讨论根因定位、故障自愈之类的高端主题，只跟大家聊一下笔者关于基础监控系统的一些建设心得。

一、一般监控系统的功能

一般的基础监控系统，主要有看图和告警两大功能，通过这两大功能，满足上述的发现问题的需求。

看图的功能，在看单张图的基础上，大部分监控系统会定制一个监控大盘的功能，将多张定义好的监控图，放在一个页面，记录一个URL，每次只要打开这个URL，就能看到自己定义好的所有监控图。

Open-Falcon监控大盘

监控大盘主要适合运维定时巡检的场景。比方说，运维同学把所有业务的核心指标都放在一个监控大盘里，每天早上只要打开这个页面，就可以看到自己业务最核心指标的情况，流量变化、稳定性隐患，一目了然。

二、监控系统模块拆解

我们以Open-Falcon架构图为例，其实这张图看起来复杂，拆解起来却很简单：

Open-Falcon架构图

绿色的实线是数据的上报流；橙色的虚线是策略的分发流；蓝色的虚线是看图的数据流。

一般监控系统架构图

整体来看，一般的监控系统分为四部分：

1、数据采集的原则

数据采集，说起来比较简单，只要把数据报上来就行，具体怎么采集，那就八仙过海各显神通了。但是我们作为平台的设计者，必须要考虑标准化与规范化。

标准化，即抽象出统一的数据模型，用以支持各种自定义的采集数据。

Open-Falcon数据模型

这里值得一提的是，确定统一的数据模型，非但不会影响各种自定义的采集需求，反而能更灵活的支撑各种自定义的需求。

采集标准化一览

另一个需要注意的，就是采集方式的标准化。

我们采集端口、进程、日志、流量的各方面数据的方式，这个做好标准之后，监控的数据就会很规范。我们在一个业务线所做的稳定性建设方案，就可以无缝地迁移到另一个业务线，无需重复造轮子，而且是摸索很久之后的最佳实践。

2、存储建设的关键点

存储的建设，我觉得很重要的有三点：

功能

从功能上来讲，数据的存储比较简单，只要能存取时间序列数据即可，这一点，业界所有的时序数据库都可以做到。

但是，高端的绘图能力和强大的告警能力，大都会依赖动态的tag关联补全，这个索引能力要根据设计的功能来酌情建设。

Open-Falcon的索引是放在MySQL里的，而且数据结构比较固定，在这方面的能力还有待加强。笔者公司为了满足需求，是自建了一套索引模块的。

性能

一般来讲，我们自己建设一套时间序列存储，成本还是很高的。因此对于大多数同学来说，大家经历的都是时间序列数据库的选择。

大家在选择合适的时序数据库时，在性能上主要要考虑两点：

一是数据的读写性能，尤其是并发读写时的性能，在建设之出，要做好压测和QPS的容量规划。
二是监控的时序数据必须要做好降采样，也就是数据的定时归档。将过去一段时间的N个点，聚合成一个粗时间粒度的点。这里要注意，千万不要做定时任务，InfluxDB的定时降采样会带来非常大的CPU高峰，对于要应对高并发查询和写入的监控存储来说，这种性能的潮汐是非常危险的。

降采样这一点，Open-Falcon底层的RRDTool技术就非常优秀，采用的是写时降采样，数据点在写入的过程中，降采样已经做好了，虽然会一定程度上带来一点性能消耗，但不会出现性能的瓶颈。

容量

无论什么样的存储，无论效率和压缩比有多高，总是会满的。这种时候，扩展就变成了一个绕不过去的命题。

关于容量方面，要强调的是，必须要有分布式的架构，可以随时扩容。

3、绘图功能的考量

绘图功能的定制，因人和业务而异。从笔者公司的建设经验来看，给大家三条建议：