数据为王，如何通过数据挖掘为运维增值升值？

温峥峰 2018-01-30 17:24:27

作者介绍

温峥峰，百田信息运维技术专家，DevOps Team Leader，超过8年互联网运维经验，曾就职于网易游戏，经受过各类海量规模互联网业务模式的历练，专注于运维自动化、DevOps实践、运维服务体系建设与SRE时代下的运维价值挖掘。

知乎专栏：https://zhuanlan.zhihu.com/hiphone-devops

「可量化」是一个严谨的技术人员需要追求的客观准则，用一个更加高级的词汇来描述是「可计价」。一切行为都是有价值的，特别是对线上环境的各种的运维操作、变更，会造成怎样的影响，我们如何判断其价值所在？

作者之前所写的《中小型运维团队如何设计运维自动化系统》主要讲述了 DevOps体系中最核心的两大模块：CMDB和作业平台。其次核心是数据平台，无论是监控、辅助运营、智能伸缩、故障自愈等高级功能都要依赖数据来驱动实现。

在运维自动化体系里面，数据是一个非常核心且是承上启下的重要元素，它即可以反映运维服务的效率、故障比例、可用性，也可以衡量业务运维状态的质量、稳定性、成本、速度等。

而且在前文的最后部分，就有一个利用作业平台执行数据来挖掘运维价值的例子，因为和本文主题相关，所以也推荐给读者，这两个例子分别是关于运维人力价值和故障分析价值。

除了上述两个例子以外，怎样利用数据来提供运维团队的增值服务，本文通过几个实战例子来描述说明。

技术栈的选择

关于数据收集、处理和展示，业界比较常见的技术栈主要这几类：

第一类是著名的ELK，即 Elasticsearch、Logstash、Kibana（或者EFK，F 是 Fluentd 代替 Logstash，毕竟Logstash因性能问题所以口碑不咋的）；
第二类是 Flume + Kafka + Storm，Java系的技术团队会比较倾向选用这套工具集；
还有一类比较少见的是用 Scribe 作为收集工具；

以上是主流的技术选型方案，但本文的重点不是介绍各种数据分析技术的优缺点，这是属于「怎么做」。

本文的主要目的是介绍「做什么」，哪些数据值得我们分析？以及数据背后价值是什么？

通常来说，分析这类数据在技术上都不会存在多大的障碍，有各种现成的开源的技术解决方案可以供我们随意选择。但是如何挖掘自家业务该有哪些数据值得分析却没有一个统一的业界标准或者参考，更多的是需要运维工程师深入理解自家业务后，通过系统运维技术加上业务运营理解的双重纬度结合才能得出一套比较完整、立体化、精细化的分析方法。

业务的诞生过程

一个站点或者App，大致经历着这样的诞生过程：PM设计出产品原型，交给 Dev 开发实现，然后交付给 Ops 部署到线上运行，最后供用户使用。

在这几个简单步骤中却涉及了众多的人、角色、交付等对象，这是一个完整、复杂的系统工程，而任意一个环节的失误都可能影响最终呈现给用户的体验以及效果。但是我们却不可能一个个子步骤都去加监控、加数据分析，这样做是非常吃力不讨好的事情，甚至会产生很多监控冗余的情况，所以我们要做的是抓住核心指标。

什么是监控冗余

随着我们的业务发展慢慢变得庞大、复杂，其需要监控的点会变得越来越多，如果我们对每个环节、每个组件可能的异常都做对应的监控，那么一台host可能会要有数十个监控项，这是不太科学的做法。

监控的意义在于迅速发现问题，如果存在过多的冗余监控，可能会影响运维人员对于告警的敏感性。例如每天好几百条告警短信接收下来，又没有非常准确地发现真正的故障情况的话，这个告警就没有存在的意义。

因此，我们该如何监控，首先是找到核心指标。

什么是核心指标

核心指标对于不同角色会有不同的侧重点：

对于PM：PV、UV、日活、月活、ARPU等
对于Dev：Bug、TPS、QPS、JVM、消息队列等
对于Ops：服务可用性、机器负载、带宽流量等

以上都是核心指标，但是缺偏偏少关注了一个重要角色——用户。对于用户来说，他们不会关心站点的PV、日活，也不会关心TPS，更加不会关心我们线上用了多少机器多少带宽。

用户只关注我们的业务产品更否提供稳定的、快速的、高质量的服务，用通俗的语言来描述，就是我打开网站是否秒开，登录app是否秒进，购物付款是否快速完成等等。

从用户的角度分析问题，才算是真正的通过运维技术加上运营理解来保证服务的高效稳定运行，这就是所谓的技术运营需要关注的。

那么问题来了，到底什么才是用户关注的核心指标？

不同业务形态有不同的用户关注指标：

对于信息类站点（例如门户网站等）：首屏时间、完整首页时间
对于电商类站点：首屏时间、登录时间、付款时间
对于页游：首屏时间、登录时间、进服时间
对于手游：启动时间、登录时间、进服时间

这需要不同业务形态的运维工程师从用户角度来分析，通过技术手段来挖掘、定位出一些核心的步骤，然后在这些核心步骤作出可监控的方法，如 URL拨测、服务端监控API、页面JS被动检测等方式。

业务监控

前面铺垫了那么多内容，目的就是要引出业务监控这个概念。

监控的作用是对业务具有全面的诊断能力，按各种层次各种维度的监控方法，建立一套立体的监控模型，对影响业务的各个核心数据指标进行采集、分析、建模、展示、处理，最终得到一套可量化可计价的业务运行状况，以确保业务正常稳定运行以及最佳的用户体验效果。

而监控的工具很多，如 Zabbix、Nagios 等，是否用这些工具就够了呢？

一般运维团队都可以做到基础系统和基础业务监控，然而高级业务监控才是衡量运维团队能力水平的指标。

业务监控—PCU

【最高同时在线人数】即 PCU（Peak Concurrent Users），对游戏项目来说是标配的关键业务监控项，该指标在运营角度反映了游戏业务的受欢迎程度，在系统运维的角度反映了整个线上环境的运行负载状态如服务器机器的负载情况、网络带宽使用情况、数据库的压力情况等。

一般PCU数据都可以从业务数据库或者后端API获得，然后在运维平台通过图表展示，但是这个数据只是展示出来供运维偶尔看看的话，就没发挥到它的真正作用。

历史对比

可以把 PCU 和历史对比，如上周同期、上月同期或者去年同期。通过对比可以根据偏差值自动判断 PCU 是否有异常，有异常则告警通知运维同事review线上环境情况。

对于偏差值的阈值设定需要比较复杂的判断，比如历史同期是公众假期或者寒暑假会使得 PCU 剧增，或者 PCU 本来偏低（如100以下）则不能按百分比来作判断条件等等。

如图所示，紫色线为上周PCU，绿色线为当天PCU，可以看出在7:00有个异常的下降，通过平台自动判断并告警通知，当然实际的监控时间粒度可以设置为1分钟或者5分钟，让监控更加及时且不会太影响系统性能。

举一反三，其实不止 PCU 这个数值可以这样利用，还有其他如新增注册人数、新增登录人数等也可以用类似的方法来分析。

业务监控—模拟用户行为

一个互联网产品可以看作由一系列独立且具有特定功能的模块组合而成，这些模块间的相互作用构成了整个产品的所有功能。而任意模块的故障都会影响整个业务的正常运行，所以我们都会对产品的关键模块会重点关注。

对于关键模块，我们可以要求 Dev 提供监控接口，通过 curl 或者 API 的形式，定期获取响应码以及响应时间，保存历史数据并制作图表。

监控接口应该是完整的，可以模仿用户行为的，比如一个电商站点，一个用户必然会做这些操作：

注册
登录
添加购物车
生成订单
付款

这些步骤都属于用户级别的核心体验指标，必须提供相应的监控接口供运维长期监控其正常运行，监控数据也需要可视化处理，任何异常都能直接通过图表反映出来，后期也根据实际情况建立相应指标的告警模型和容量管理模型。

例如，点击某个监控项的图，可以看到具体的响应时间监控曲线。

业务监控-用户来源分析

用户来源分析也是一个非常实用的业务级监控，通过各种客户端技术获取用户真实IP，如果是通过HTTP协议则需要 x-forwarded-for 来跟踪用户的真实IP，收集好IP信息和用户对应关系后，通过数据分析IP库得出用户所在地区、ISP等信息，然后就可以得出我们实际业务的当前用户地区、ISP分布图，然后结合中国地图前端控件制造图表。