准召率超80%，网易游戏AIOps异常检测及故障定位优化实践

sw 2022-09-20 09:55:28

本文根据施望老师在〖2022 Gdevops全球敏捷运维峰会-广州站〗现场演讲内容整理而成。（关注【dbaplus社群】公众号，回复“220617”可获取完整PPT）

讲师介绍

施望，中山大学统计硕士毕业，曾就职于华为，目前任网易游戏技术中心智能监控AIOps团队负责人，致力于将AIOps落地到游戏运维场景，帮助SRE有效发现、定位、解决故障。在智能运维领域有丰富的落地实践经验，带领团队由0-1搭建智能运维服务平台。

分享概要

一、网易游戏AIOps落地线路图

二、异常检测

三、故障定位

根据 Gartner 的最新阐释，智能运维（AIOps）意指整合大数据和机器学习能力，通过松耦合、可扩展方式去提取和分析数据量（volume）、种类（variety）和速度（velocity）这三个维度不断增长的 IT 数据，进而为 IT 运维管理产品提供支撑。AIOps 围绕质量保障、成本管理和效率提升的基本运维场景，逐步构建智能化运维场景。在质量保障方面，保障现网稳定运行细分为异常检测、故障诊断、故障预测、故障自愈等基本场景；在成本管理方面，细分为资源优化，容量规划，性能优化等基本场景；在效率方面，分为智能变更、智能问答，智能决策等基本场景。

一、网易游戏AIOPS落地线路图

2016年开始, 网易游戏在AIOps这条道路上持续探索，力求实现从人工运维到智能化运维的转变。从2016年开始组建智能监控团队，构建智能运维平台，一直到现在，落地了异常检测、预测、关联分析、下钻分析、日志分析、运维机器人、故障定位、故障预警等。除此之外，还有很多其他功能，如火焰图分析、硬件预测、CDN文件发布等，都取得不错的实践效果。

二、异常检测

异常检测是研究AIOps的必经之路，后续很多场景功能都以异常检测为基础，属于不得不解决的问题。异常检测指通过 AI 算法，自动、实时、准确地从监控数据中发现异常，为后续的诊断、“自愈”提供基础。相比传统阈值配置成本高、误报多、场景覆盖少的问题，异常检测有易配置、准确率高、场景覆盖面广、自动更新等优点。

对于异常检测，其实网上很多文档或者书籍都给出了一些算法或者工具，但在实际运用的过程中，会发现效果往往不是很好，究其原因是这些算法只能有效地针对一些特定的场景、以及需要做很多的优化来适配实际的场景。为了更好地在实际场景中落地，我们对算法做了一些调整优化，并结合业务需求对指标进行划分，达到更好的检测效果。我们将异常检测根据指标类型划分成了三种场景----业务黄金指标（如游戏在线人数）、性能指标（如cpu使用率）、文本数据（如日志），采用不同的检测算法。

1、业务黄金指标

业务黄金指标的特性是周期性强、曲线波动小、指标量级小、准确率和召回率要求高。我们知道有监督模型具有高准召率、高扩展性的优点，因此我们考虑采用有监督模型对业务黄金指标进行异常检测。然而有监督模型需要大量的标注数据，但对异常检测项目很难收集到足够的异常数据。那应该如何去解决和平衡这两者之间的关系呢？我们从样本构建到报警可视化，构建了一整套的检测框架。

1）样本构建

考虑到样本收集困难问题，我们的样本主要来自两个方面——历史KPI数据集和线上用户标注数据。首先，抽样部分KPI数据集，采用简单无监督检测模型如Iforest检测得到异常score，通过不等比例分层抽样筛选出疑似异常样本和正常样本，进行人工标注，并划分成训练集和测试集用户模型训练和测试。功能上线后，收集用户标注数据，用于模型优化。用户标注的数据仅会作用于本项目，避免不同用户异常认知差异导致的错误报警问题。还有一点需要注意，当历史异常数据不足时候，可以通过异常生成的方式生成样本，如加噪声、设计抖动模式等方式。

2）预处理

预处理模块包含曲线分类、缺失标准化处理以及特征计算三个部分。曲线分类采用LSTM+CNN的方式实现，将待检测KPI分成3类（稳定、不稳定、不检测），分类准确率可达到93%+。线性和前值填充的方式进行缺失值处理，并max-min归一化。特征包含统计特征、拟合特征、分类特征、滤波特征、自定义特征等，构建近500维特征。考虑到无效特征问题，需要进行特征选择，再进行建模。

3）算法模型

模型主要采用常见模型，如RF\XGB\GBDT等，再用LR进行集成，进行检测。

4）可视化

可视化部分包含图文告警、快速标注、异常视图三个模块。通过图文形式进行报警，在报警消息中加上快速标注链接，用户在收到报警后可以快速确认是否有异常发生并标注。