58智能监控系统的整体设计与多维实现

龚诚 2019-07-17 14:27:24

一、监控系统概述

58智能监控系统的目标是为集团旗下各业务线提供灵活易用的监控产品，通过覆盖网络层、服务器层、系统层、应用层、业务层的立体化监控体系，实现7*24无死角的实时监控，保障公司各产品的稳定运行。

除传统监控产品支持的数据采集、存储、告警、展示等功能外，58智能监控系统还支持了关键指标的智能预测和异常检测、告警合并、告警关联分析、故障自愈、故障预警、自动化添加监控、灵活的自定义监控等功能。

1、监控系统核心功能

网站可能出现各种访问异常，造成故障的因素多种多样，在这么多可能故障的情况下，保障网站的服务稳定性必须要依赖智能的监控系统。

我们先来看一下监控系统的核心功能：

采集数据：采集需要监控的指标数据，例如：服务器的资源使用率，应用服务的服务状态等；
设置告警策略：灵活配置的告警策略；
发送告警：支持多种告警方式，且要求告警准确，数量较少；
数据查看：多维度监控数据的查看。

我们希望监控系统成为线上服务的守护神，它是服务稳定性的重要保障。

平时，监控系统是运维和研发、测试人员的眼睛，协助我们快速发现和排查故障；
通过将运维数据进行量化和可视化，便于技术人员对网站进行优化；
另外，我们还要求监控系统具有一定的智能，可以根据大量信息给出有价值的结论，例如：告警的关联分析、故障的根因分析、自动给出系统的优化建议等。

2、立体化的监控体系

根据大型网站的通用架构，我们构建了立体化的监控体系，如下图所示：

监控纵向覆盖了：

网络层：网络设备宕机，资源使用率，流量，服务质量，专线等；
服务器层：宕机，无法登陆，硬件故障等；
系统层：资源使用率（CPU、内存、磁盘、网络等）；
应用层：端口存活，进程存活，接口状态，服务QPS等；
业务层：PV、UV、订单量，成交额等业务指标。

横向覆盖了：

用户端：重点页面关键指标（可用性，首屏时间，全部加载时间等），DNS劫持，链路劫持，页面出错，页面超时等；
机房网络出口端：VIP连通性监控，页面监控，接口监控等；
流量接入端：网站总网络流量、三端（APP端、M端、PC端）网络流量等；在Nginx上实时统计的域名维度、集群维度数据；
业务集群端：单机监控（纵向：服务器层，系统层，应用层，业务层），集群监控（页面、接口监控，Nginx日志监控；核心指标包括：可用性，响应时间）。

3、监控业务模型

由于互联网公司的服务器数量非常多，往往都达到万台、甚至几十万台，提供同一个服务的节点（服务器或容器）的数量非常多，为了便于管理，我们使用了基于集群的监控模型。

我们将提供同样功能、部署同样服务、监控方法一致的一组服务节点称为一个集群，所有监控配置项（节点列表，监控模板，告警接收人）与集群关联。该监控管理模型如下图所示：

这种监控业务模型可以允许业务非常方便的更新各种监控配置项。例如：

对服务进行扩容或将故障节点剔除时，只需要从节点列表中做变更即可，无需更改其他项；
需要增加、修改或删除告警策略的时候，仅需关注策略的变更，无需关注其他信息；
用户订阅或取消订阅告警的时候，仅仅影响告警组中的用户列表，与其他项无关。

系统整体根据集群关联的节点列表、监控模板中的策略、告警接收人列表去实时的下发到告警控制模块，对告警产生影响。

4、提供更好的用户体验

用户可以在PC版的监控系统使用监控系统的所有功能。为了方便用户的使用，我们的界面分为三个区域，分别是菜单、服务树和业务展示区。

菜单供用户选择要使用的功能，选择了服务树的某个节点就确定了关注的业务范围，前两者确定了业务展示区展现什么数据和功能。如下图所示：

为了方便在移动场景使用监控系统，还提供了微信版的监控系统。在微信告警中，可以方便看到告警详情，及告警相关的监控指标的数据视图，另外还可以对无需处理的告警做屏蔽告警操作，备注告警的处理进展，便于多个负责人同步消息等。

二、多维度监控方法

为了确保发现各维度的异常，我们使用了多维度的监控方法，包括如下层级：

基础监控：服务器宕机、资源使用率、网络质量；
服务监控：端口状态，进程状态；
自定义监控：多种多样个性化监控指标；
功能监控：页面监控、接口监控；
可用性监控：集群维度、域名维度的可用性、响应时间等；
业务指标智能监控：对反映业务运行情况的宏观数据做智能预测、异常检测。

下面分别介绍一下实现原理。

1、基础监控、服务监控、自定义监控

上述三种类型的监控数据都由部署在服务器上的监控agent进行采集，数据采集后做数据的存储和异常判断，进而做视图展示和异常告警。

数据采集示意图：

2、页面、接口监控

网站的首页，或者重要的列表页、详情页是对用户体验影响较大的页面；APP端为了展现数据需要调用接口获取数据，接口的可用性也是非常影响用户体验的。为了及时、准确的发现关键的页面、接口的功能是否正常，我们开发了该项功能。

为了及时发现网站用户能够感知到的异常，我们通过域名解析出来的VIP，从外网访问指定的页面或接口，并验证域名解析、建立连接、HTTP状态码、响应时间等指标。并对页面监控验证数据长度、是否包含指定关键词等指标；对接口监控验证业务状态返回码、接口中特定字段的数据长度等指标。

由于现在的服务一般都是按照集群进行部署，单个节点出现问题，Nginx会做重试，少量节点出现问题外部用户不会感知到异常。为了及时发现该类问题，我们根据用户配置的参数，按照服务器的维度进行探测，该种监控方式能够及时发现服务器级别的异常，从而进行故障的预警。

3、集群、域名可用性监控

网站的所有流量经过四层负载均衡设备、Nginx集群转发到后端业务集群。在Nginx集群上可以看到后端业务集群的运行状况，我们通过实时收集和传输Nginx日志，使用Storm集群实时计算集群维度和域名维度的各种状态码数量和比例、响应时间等指标，进而做数据展示和异常告警。并在集群维度也按照服务器统计了上述指标，可以发现个别服务器的异常，做到对集群故障的预警。