SRE运维快转型吧!以前那套故障管理方法可能不行了……

广发证券数字化运维研发团队 2026-01-20 09:41:21

作者介绍

广发证券数字化运维研发团队,致力于通过数字化技术推动SRE转型,赋能稳定性保障,负责数字化运维体系的规划与建设,包括数字化运维体系规划、流程规程制定、运维平台研发、效能管理、持续交付、智能运维等工作。

 

引言

 

稳定性保障是运维领域一条不可逾越的高压线,它要求运维从业者必须保持高度的专注和警觉,对任何潜在风险保持敏感,并迅速采取措施防止风险演变为故障,或控制故障苗头的扩散与影响。这种如履薄冰的警觉性是运维工作的核心,因为任何一个微小的疏忽都可能导致灾难性的后果。在稳定性保障中,故障应急管理是关键主线之一,它直接关系到客户信任度、企业声誉以及IT团队的专业能力评估。因此,业界愈发重视故障应急管理,致力于在紧迫的时间压力下提升应急响应的速度和质量。

 

在“SRE转型”系列的第一期推文《SRE转型 | 稳定性保障系列之运维左移》中,我们围绕系统稳定性保障工作,分享了针对软件上线前期的运维左移工作的工作思路与实施策略。接下来,本文将深入探讨广发证券在事中应急处理和事后复盘方面应急指挥场景的实践,从而提升业务连续性和稳定性。

 

一、故障管理生命周期

 

随着系统架构的不断升级与功能的持续迭代,系统运行日益复杂,故障的发生不可避免,且发生场景愈发无法预测。从企业角度看,系统故障会影响客户体验,减少访问流量,造成交易损失,引发监管问责等;从系统架构角度看,系统故障反映的问题代表系统未来扩展性与局限性;从IT资源角度看,故障(尤其是重复性故障)将占用大量IT人力资源,影响IT价值创造能力;从运维角度看,故障是一个常态化的存在,既是业务连续性大敌,但同时也是推动组织架构、提升人员能力、完善协同机制、工具平台升级的驱动力,有效的故障管理有助于建立学习型的运维组织。

 

故障管理有一套严谨且闭环的故障管理生命周期,涵盖了从故障预防、故障应急恢复、故障复盘的全过程,参见下图。

 

 

广发证券运维团队围绕故障管理生命周期,持续推动一系列运维保障工作机制,从而建立一个持续提升故障管理能力的模式。故障管理生命周期通常被划分为事前、事中、事后三个阶段:

 

 
1、事前阶段

 

着重于通过架构评估、容量规划、性能优化等手段发现潜在问题并修复,并加强事中的流程机制、工具、能力建设,以提升故障处置阶段效率。

 

 
2、事中阶段

 

聚焦于快速恢复服务可用性和业务连续性,事中处置最为复杂,包括故障发现、响应、定界、处置、恢复、故障复盘和根因定位,需要有一个完备、在线的协同指挥系统,确保团队快速恢复服务。

 

 
3、事后阶段

 

通过对事前与事中环节的复盘,着重于解决故障根源性问题与提升故障事中处置效率,通过梳理故障处置过程、根因分析、处置过程优化等步骤,从故障中学习并持续改进。

 

总体而言,上图所展示的故障管理各个阶段都是相互关联的,一个阶段的效率和成效关乎下一个阶段的进展,原则上不容错放任何一项可疑风险,力求在风险初露苗头时消灭。同时,建立闭环的故障管理能力模式,可以更有效地管理和应对信息系统中的故障事件,降低业务中断和数据丢失的风险,从而提升整体的IT服务管理水平。

 

二、应急作战指挥概况

 

 
1、作战指挥聚焦事中应急高效协同

 

基于事前防范、事中恢复和事后复盘的管理闭环周期,我们将重点探讨事中应急阶段的高效恢复策略。具体而言,我们将介绍如何通过数字化应急指挥场景,在事中阶段沉淀关键的应急过程数据,从而为事后的故障复盘提供坚实的基础。通过故障应急作战指挥,不仅提高了应急响应的效率,避免应急动作遗漏引发的风险扩大,还强化了从实践中持续提升团队应急作战能力,确保了故障管理的持续优化和改进。

 

 

 
2、应急作战指挥的他山之石

 

在应急作战领域,我们可以采用分层响应策略,将事件分为小规模和大规模两类进行处理:对于小规模事件,可以组建一个跨职能的应急团队,比如各SRE团队组建一二三线角色,并推动跨团队的特定技术运营小组,以实现快速集结、明确分工、灵活机动,这种小分队作战模式强调的是快速反应和专业技能的高效运用,适用于处理需要快速解决且影响范围有限的故障。相对的,针对大规模事件则需要采取大规模作战的策略,这要求在作战指挥中还需要建立应急集结、上下游扩散触达等机制,实现全面动员,调动和协调组织内外部的多方资源。广发证券数字化的应急指挥作战指挥中心能够统一协调行动,确保信息的准确流通和管理,同时进行有效的危机沟通。

 

一些领先的大型银行(ECC)与阿里巴巴(GOC)也在积极推进应急作战指挥机制,包括通过集成监控系统实现故障的快速识别和定位,依托跨部门团队的紧密合作来调动必要资源,利用大数据分析支持决策过程,通过自动化工具提高处理速度,并通过定期的预案演练来优化应急流程,确保在真实情况下能够迅速而有序地响应。这种以技术和协作为核心的应急机制,使得公司能够在保障业务连续性和客户满意度的同时,有效管理和缓解故障带来的影响。

 

三、应急作战指挥场景实施

 

广发证券在推进数字化应急作战指挥场景时,主要从“痛点驱动、契合禀赋、数字化重塑”三点推进,以下是应急指挥过程中的一些思考与实践。

 

 
1、痛点驱动

 

我们的故障应急指挥场景的改进动力源自一次深刻的故障复盘会议。在该会议中,测试团队的一名成员指出,他们在测试阶段曾遇到过类似的故障现象,这暗示了如果能在应急响应中更迅速地整合测试团队,可能会加速故障的解决。为此,我们进一步调研了管理决策与一线运维经理对现有故障应急的痛点,并识别出当前应急处置的几个关键痛点:

 

1)管理目标与现状的分歧

 

企业对应急响应的时效性要求日益增长,但系统逻辑的复杂性、上下游系统及平台间的依赖关系也在不断加剧,许多故障由微小环节引发。

 

2)应急协同效率不足

 

目前依赖运维人员的应急模式存在明显缺陷,技术人员分散于不同地区,导致资源调动缓慢,跨地域、跨团队的协同效率亟需提升。

 

3)应急响应的英雄主义

 

在应急响应中,专家经验的运用呈现出两极分化。一方面,少数应急专家主导全局;另一方面,部分SRE人员对应急流程不够熟练。如何沉淀专家经验,提升其他SRE人员的应急能力,成为了一个挑战。

 

4)应急管理机制的缺失

 

长期依赖经验积累的应急管理机制,以及依赖人员自律的执行策略,容易导致关键应急环节的疏漏,带来管理和技术风险。

 

5)应急模式的持续性缺失

 

虽然生产故障本身是不利的,但每一次故障都是提升运维能力的机会。我们需要从每一次故障应急中锻炼团队,形成持续提升的应急模式。

 

6)技术平台能力的不足

 

缺乏一个集监控、流程、自动化等技术于一体的平台,以及告警、应急预案、感知、黄金指标等服务场景的能力,限制了应急响应的效率和效果。

 

通过对以上痛点的梳理,我们认识到需要构建一个更加系统化、自动化和协同化的故障应急管理体系,以提升整体的应急响应能力和业务连续性。

 

 
2、契合禀赋

 

1)适合自己的才是对的

 

应急管理是一项极其复杂的工作,领先企业不惜投入大量资源进行应急管控,比如一些商业银行每天在一线投入的人力资源就多达上百人,并设置了总控经理、一线操作团队、事件经理等多个横向保障角色。像蚂蚁金服这样的大型企业,也围绕故障等级、故障序列、应急值班长、部门GOC等制定了一系列举措。从这些例子中我们可以看出,领先企业在应急管理的精细化程度极高,同时在资源投入和对人员能力水平要求也很高。在设计一个有效的故障应急指挥作战场景时,需要结合自身的能力水平,安排配套的组织、流程,以及平台资源。

 

2)先将线下的线上化

 

如果不清楚数字化应急指挥场景如何入手,建议第一步就是将线下工作线上化。存在即合理,企业线下的应急管控经过多年沉淀,已经能够应对日常主要的故障。将线下工作模式线上化,能够更容易让管理决策层、一线经理以及一线运维同事接纳和适应。一旦工作场景线上化,很多原本模糊的协同问题就摆到了台面,接下来就是会有很多管理决策点、一线应急效率提升的需求出现。

 

3)重视专家经验

 

在运维指挥作战场景中,是依赖专家经验还是平台能力,取决于组织管理决策层思维、协同文化、人员工程能力水平以及平台能力水平。然而,总体而言,当前证券行业的应急指挥仍需以专家经验驱动为主,关键在于推动应急管理专家、应急流程设计专家以及一线SRE应急专家沉淀经验。

 

4)控制平台投入成本

 

应急作战指挥是一个极其复杂的工作场景,在迭代过程中会与各种工作场景连接,而当前行业中没有太多成熟的产品。从成本投入的角度考虑,采用上层场景自研,并整合现有监控、自动化、流程管理、数据分析等平台能力,是一个成本可控的有效方案。

 

5)动态管理,在运营中持续完善

 

应急管理是一个持续优化的过程,我们有不少稳定性保障措施是基于事件驱动建立的管理措施,因此,应急指挥作战场景需要具备快速迭代升级的能力,以保持每周迭代的响应发布时长。

 

 
3、数字化重塑

 

1)全在线动作序列

 

在设计应急作战指挥场景时,我们以应急过程线上化作为第一个环节,梳理了应急核心必选主线与辅助可选步骤两类应急动作序列。如下图,即应急作战指挥围绕蓝色的核心主线、红色的可自动化或机器人执行的主线、灰色的辅助备线三段推进。

 

 

尽一切管控机制,保障应急核心主线的到位。核心主线需要确保每项工作落实到位,以便在故障发生后能够调配足够的资源,避免因一些低级的工作遗漏延误时机,从而在最短时间内恢复业务。如上图所示,当监控发出告警时,需要一线值班人员在指定时间内响应受理并评估影响,如果超时将由机器人升级报告到上级;当识别到故障后,需要启动应急申报环节,由系统召集应急协同资源;应急申报后,机器人需要开始计时,在指定时间未明确完成应急恢复操作则会自动升级处理级别等。此外,对于定界、应急恢复、事件挂起等动作也是应急指挥场景中的必要环节。

 

将能自动化的工作,由机器人等技术替代辅助。随着事件复盘与管理机制等精细化水平不断提升,核心主线的要求日益增多,这要求我们不断推进自动化进程,将更多可自动化的任务实现自动化处理。比如围绕监控告警支持故障自愈策略、故障申报后支持系统健康检查与变更定位、故障申报后自动建群、自动通知下游系统阅知、故障应急过程中推荐应急预案、故障超时未恢复时推荐应急N板斧应急预案、值班经理督办工作事项等。在广发证券,由机器人代替主线的运维工作,形成了人机协同的应急作战模式,在自动化操作、应急协同事务性工作中发挥了比人工更加有效的作用。

 

 

针对不同类型故障,提供非必要功能。鉴于不同系统、硬件设施故障的紧急程度及参与协作人员的差异,除了提供必要的核心主线动作序列外,还需设计一系列可选的辅助主动作序列,并在序列中增加一些辅助性工作。比如当故障影响升级后涉及的一键应急资源集结、上下游系统间的闭环反馈影响分析协同以及安全管控协同等。辅助动作序列的启动由应急人员根据实际情况决策,需要持续迭代以更符合一线应急人员的期望。

 

2)ChatOps作战群

 

在应急指挥作战的过程中,我们主要采用ChatOps作为协作工作空间。ChatOps群组由聊天群、群机器人、员工以及支撑机器人运作的运维平台服务共同构成,极大地促进了信息的扁平化流通。在该模式下,团队成员能够摆脱传统层级结构的束缚,实现即时且直接的关键信息交流,从而显著加快决策进程。此外,ChatOps群还配备了机器人助手,这些机器人能够自动化执行多项任务,如监控警报处理、资源分配协调以及辅助分析等,有效减轻了人工负担,并显著提升了协同效率。在场景功能上,我们进行了一些设计,例如:

 

①自动拉群、拉人

 

系统能够智能识别CMDB中的关系,并自动将相关专家或团队拉入应急响应群组。这一功能确保了所有必要的人员能够迅速到位,共同参与应急响应,从而大大缩短了应急响应时间。此外,应急协同群的链接也会推送给相关人员IM中,便于他们根据实际情况按需入群。

 

②扁平化的共享信息

 

ChatOps群组作为一个高效的协作空间,允许所有角色按需共享信息。无论是研发、测试还是决策层,都可以在线穿透式地参与应急协同决策。此外,机器人还能将应急过程中所需的数据实时推送到群组中,实现了信息的扁平化与强关联性,使不同的协同角色能够随时加入并了解“事件”的上下文,比如下图是辅助问题分析的信息提供:

 

 

③多技术群协同

 

一次故障应急往往涉及多个技术运营群。我们为每个故障设置了专属的故障应急处置群,作为应急过程的主战场;同时,根据系统关系,我们建立了系统运营群,群内成员在问题咨询、故障识别、影响评估及故障应急中发挥着重要作用。此外,整个部门还有一个统一的故障应急群,用于即时公示故障的最新进展。

 

④群的公示作用

 

在应急过程中,信息的触达与快速响应至关重要。通过在ChatOps群组中“@”某个成员,我们形成了一个有效的公示机制,使处理人感受到来自群成员的共同监督,从而促使其流程高效执行。这种社群内的沟通模式具备“公示”效应,有效避免了成员对协作事务的选择性忽视。相较于单独的消息推送或电话通知,这种方式在实践中取得了更好的效果,特别是在处理监控告警未及时响应、应急处置超时提示、通用技术应急预案执行以及应急恢复后发现非紧急运维风险等方面。

 

3)机器人连接

 

应急管理一个网状的数字化空间,需要借助连接线将各个场景紧密串联,ChatOps通过高频的CHAT ROOM建立连接的空间,以机器人为纽带,创建人与平台、数据之间的连接。利用机器人“强大的计算能力,不知疲倦,不易出错”等特性,结合运维数据与专家经验,构建人机协同能力。用户可以通过聊天界面的上下文与机器人消息,或机器人消息关联的工具链接,解决具体的问题。

 

 

①机器人高效执行力 

 

ChatOps机器人具有100%的执行力,能有效避免必要动作未执行情况情况 。我们利用机器人执行各类自动化策略,充分应用这个客观执行力特色,帮助需要提升扁平化协同、融合工具、快速响应、按规则执行等场景诉求。这个特点在督办性的工作效果特别好,解决“不好意思找人”、“遗漏步骤”的问题,比如值班经理有很多需要督办值班人员工作的事项。

 

②新的门户 

 

机器人一定程度上解决了传统工具门户中找工具的的痛点。ChatOps的社交属性无缝连接了用户,成为高频使用的入口。应急的所有动作由机器人推送到特定用户的IM中,员工可按需操作各类工具特定的功能,而无需记住具体菜单的位置。通过整合各类工具入口,基于沟通的上下文,机器人可以将用户需要关注的事项与应急工具入口推送出来,值班人员不需要在多个工具菜单间来回切换,是一种全新的门户。

 

③泛机器人化提升信息触达能力 

 

由于社交工具通常是企业员工最高频使用的工具,ChatOps在迭代中会成为即时触达的解决方案。ChatOps将融合IM以外的各类消息推送的服务,应急协同实现了支持:电话、邮件、短信、公告、紧急集结、ChecList闭环确认、告警、待办等多种咨询调度手段。

 

4)多角色、多终端、多渠道、多服务的平台能力

 

应急指挥场景需要支撑用户能够在秒级时间内建立应急连接,达到数据汇总、信息融合、运行感知、人机协同、工具互联的一站式协同“总线”作用,从而实现全面感知、精准决策、协同高效、指挥有效。要实现这样的场景需求,指挥场景需要具备以下核心能力:

 

 

①多角色协同。公司领导、技术部门领导、运维值班经理、运维岗、研发岗、测试岗、产品需求岗、外联岗等角色参与应急的多角色能力;

 

②多终端协同。支持PC、移动、IM、大屏多端的在线协同的终端处理能力;

 

③多渠道联动。支持自动与人工秒级启动,包括集结、建群、机器人、电话、OA待办等10多种丰富的资源调度手段的多渠道能力;

 

④多服务整合。为避免重复建设,指挥场景需要支持与公司现有监控、ITSM、操作、运维数据、CMDB等现有平台能力整合的多服务整合能力。

 

5)重视复盘

 

每次故障都可能是“事件驱动”改进的机会,我们主要通过标准化Checklist的方式完整梳理各项能力并查漏补缺。在设计故障复盘时关注两大目标:一是能否更快恢复服务,二是如何避免重复故障发生。

 

①更快恢复 

 

在故障复盘时,需分析“发现、响应、定界、止损、根因分析、彻底恢复”等环节的效率,并以SLO量化应急效率目标及相应的SLI。通过量化分析,我们能更准确地识别提升空间,提出优化措施,例如监控与发现效率、告警响应速度、问题定界中的可观测性、预案有效性与执行效率、自动化恢复速度、系统容错与韧性、团队协同、资源调度及时性及人员技能规范等。

 

②避免重复 

 

通过挖掘故障根因,制定针对性解决方案,防止系统重复故障。这涉及分析应用代码缺陷、配置错误及人为操作失误、管控流程等非技术因素,并采取修复与预防措施。同时,鼓励团队成员将根因防范应用于类似场景,提升企业系统健壮性。在金融企业中,故障复盘还需关注流程管理的定级、定性、通报机制及舆情处理,确保合理定责并调整故障额度与可用性标准。通过优化管理流程,确保快速定位问题、高效执行预案,并加强团队沟通与协作。

 

复盘作为每一个应急指挥的闭环收尾环节,我们建立配套的故障复盘功能,主要包括:处置上时间轴梳理、应急slo差距分析、故障的自动化发现能力评估、故障定界能力评估、止损能力评估、运行分析,以及潜在风险挖掘功能。相关功能将与其他工具结合,比如自动化发现能力与监控告警、巡检任务、日志检测、清算感知、配置感知等工具关联;定界能力与应急经验编排、可观测看板工具关联;止损能力与应急预案、批量启停等工具关联;运行分析与影响评估、流程支撑等工具关联;潜在风险挖掘与三线SRE风险挖掘、变更控风工具关联。

 

 

6)SLO

 

稳定性保障需要有一个数字化“绩效”的度量指标,SLO是数字化运维体系能力水平的管理场景,数字化应急指挥也需要建立SLO。在行业中,“1-5-10”被广泛用于应急管理的SLO。“1-5-10”的目标,不仅涵盖了管理流程和操作规程的建立,还包括了人员能力的提升、合规意识的增强以及技术平台的构建等多个方面,其价值并非具体的数字指标,而在于它强调SRE应急管理应聚焦过程中的关键环节应达成明确目标,有助于SRE有针对性地优化资源配置,提升各个时段的工作效率。

 

尽管“1-5-10”目标的持续优化并不能完全杜绝生产事故,但它能够提高SRE团队的应急响应能力和整体表现,个别突发故障不应成为质疑其价值的理由。通过不断优化和完善,SRE团队可以逐步成长为行业的领先者,从而显著降低事故发生的概率。正如学业中的优等生,通过持续的努力和优化,其不及格的风险远远低于中等生。我们在建立应急管理的SLO时是分阶段性的,并已明确了相应的SLI,包括:

 

  • 发现:从实际发现到有条件发现故障苗头的时长。

     

  • 响应:从识别故障到发起故障申报的时长。

     

  • 定界:指找到准确的用于应急恢复处置,且处置有效的时长。

     

  • 止损:通常指防止故障扩散,采用更快的处置行为恢复到可接受的状态。止损不一定完全恢复,也可能是有损的恢复。

     

  • 定位:指找到故障的具体原因或根源的时长。

     

  • 恢复:指受损业务或系统等对象恢复到故障前的状态。

 

行益于应急指挥调度完全线上化,我们可以实时洞察系统应急处置效率,比如下图是我们一个故障的整个应急处置过程的SLI情况:

 

 

另外,为了推动团队整体的应急处置能力,我们也从团队角度建立应急SLO情况报表,并将具体情况融入到每日团队复盘、管理日报等环节。

 

四、展望

 

故障应急管理作为确保业务连续性和稳定性的基石,其复杂性与挑战性不言而喻。事中与事后阶段的高效协同与数字化应急指挥场景起到了决定性的作用,加速了应急处置速度,降低了风险扩散的风险。得益于数字化技术的赋能,我们打造了一个集系统化、自动化与协同化于一体的故障应急管理体系。这一体系显著提升了我们应对突发事件时的敏捷性和高效性,确保了应急响应管理的质量。

 

然而,随着应急指挥场景的日益复杂化,学习成本不断攀升。为了应对这一挑战,广发证券正积极采取一些措施,包括:推动应急动作的自动化进程,将应急定界、分析、处置等工具与指挥场景进行深度融合;探索连接外部供应商,支持对供应商资源的在线调度;通过机器人的智能推荐,帮助应急人员提高应急响应的效率;探索利用大模型Agent平台来编排应急处置流程的可能性,为应急人员提供更加精准应急策略。

 

作者丨广发证券数字化运维研发团队
来源丨公众号:广发证券科技金融(ID:GFFinTech)
dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
最新评论
访客 2024年04月08日

如果字段的最大可能长度超过255字节,那么长度值可能…

访客 2024年03月04日

只能说作者太用心了,优秀

访客 2024年02月23日

感谢详解

访客 2024年02月20日

一般干个7-8年(即30岁左右),能做到年入40w-50w;有…

访客 2023年08月20日

230721

活动预告