适配金融业:IT运维管理体系数字化转型探索与实践

李立峰 彭华盛 2022-06-04 10:52:00
作者介绍

李立峰,广发证券股份有限公司信息技术部副总经理

彭华盛,广发证券股份有限公司信息技术部数字化运维研发团队负责人。

 

随着移动互联网、大数据、云计算、人工智能等数字化技术的快速应用,证券公司正加速围绕“提升客户体验、加速商业模式创新、为运营提能增效”的核心价值创造进行数字化转型。对于资本市场,数字化转型是一场以金融科技创新和科技能力为核心的竞逐。金融科技战略是通过数字化技术赋能公司业务运作、运营管理、商业模式的转型,在实践上,科技条线需要围绕公司转型战略建立可持续扩展的IT能力体系,推动IT能力呈螺旋式持续提升,以应对外界持续变化的复杂度和不确定性,实现在高速行驶过程中换轮子的能力。在广发证券数字化转型推进过程中,信息技术部积极推动组织、流程、场景、技术平台的数字化转型,以更好的落实金融科技战略。本文结合广发证券在IT运营数字化转型的探索和实践,重点围绕数字化运维能力建设经验,提出并分享一个 “OPSP+OADS”的IT运营数字化转型方法。

 

一、概述

 

 
1、围绕公司核心价值递归传递价值

 

数字化转型是一项自上而下逐步精细化的系统性工程,为有序推进数字化转型,需要瞄准证券公司“提升客户体验、加速商业模式创新、为运营提能增效”的数字化转型核心价值创造,从公司逐步传递到各条线部门、执行团队的转型价值体系中。我们认为这个价值创造的传递过程是一个“递归传递”的过程。“递归传递”的方法来自于计算机“递归算法”,即把整体问题分解成规模缩小的同类问题,然后逐步递归调用解决。递归算法的关键是,总体目标的实现,由目标一致的细分方法不断分解实现。将价值传递应用于数字化转型,需要采用“顶层统一规划设计,职能线条分布式推进”的策略。在数字化转型战略规划层面,自顶向下从公司角度总体规划,确保资源保障;实施层面为提升敏捷性,要引导各职能线条基于公司的愿景和核心价值链,细分部门的愿景和价值主张,再采用自下而上策略(解决分治任务),递归分解到具体的业务生产和运营管理过程。在评估数字化IT风险管理体系时,我们依据从公司传递到IT,再由IT传递到运维的过程,在传递过程中总结出转型关键词与运维价值创造。

 

为确保数字化转型的有效落地,我们归纳了“连接、数据、赋能”三个数字化转型关键词,关键词指引数字化场景的实现。其中,连接是指在公司在线搭建起一张实时互动的多角色的协同网络,角色包括人、软件、硬件、机器人等;通过在线数据分析对协同网络中对众多连接进行有效管控,让管理者更好地感知协同效率及可能出现的操作风险并辅助管理决策,让业务更好的感知客户体验、业务运营并快速响应业务需求;人既是协同网络的设计者也是参与者,是企业持续创新的源泉,员工赋能是转型的重要目标。

 

围绕证券公司“提升客户体验、加速商业模式创新、为运营提能增效”的价值创造,递归传递到IT,我们认为IT团队应重点建设以下6个能力:

 

  • IT风险保障能力:以数据驱动建立围绕业务连续性保障的IT风险保障防线。

 

  • 客户服务能力:以客户为中心的“感知、决策、执行”的服务能力。

     

  • 快速交付能力:以敏捷思维推动技术平台升级,支持业务快速交付新产品、新服务。

     

  • IT服务能力:提升IT服务效能,灵活弹性、安全可靠的技术基础资源交付能力。

     

  • 运营协同能力:构建高效的数字化工作空间,优化资源配置,为运营提能增效。

     

  • 生态扩展能力:开放的场景接入和流程管理能力,并融入行业生态。

 

进一步将IT价值递归传递到IT下的产品、开发、测试、运维等职能领域,需要围绕上述6大IT能力建设进行价值创造。以运维最后一道防线为例,可以转化为重点围绕“增加IT风险保障能力”、“加快业务交付速度”、“提高IT运营服务质量”、“提升客户体验”4点,推动IT风险管理的能力建设。

 

 
2、构建“OPSP+OADS”的数字化转型方法

 

从我们前期数字化实践经验看,大到公司体系、部门体系,小到团队/群组体系,其数字化转型的运营管理架构由“组织(organization)、流程(process)、场景(scene)、平台(platform)”四部分组成(见图1),我们简称为OPSP。OPSP的体系架构中,组织重点围绕组织文化、组织架构、岗位设置、个人能力建立数字化管理能力。流程是通过数字化思维重塑工作流程,将制度规范、管理领导力、协同模式、资源配置等在线化。场景是将线上工作“人、事、时间、协同、环境”连接起来,实现提能增效和智慧沉淀,场景需配套有效的技术控制机制,以确保业务及运营管理在合规、风控的基础上更高效开展。平台是支撑组织、流程和场景数字化落地的技术底座。

 

图片

图1:OPSP数字化运营体系架构

 

科技条线的“客户服务、连续性保障、快速交付、生态扩展、IT服务、运营协同”6大IT能力建设是呈螺旋式持续提升过程,以应对外界持续变化的复杂度和不确定性,实现在高速行驶过程中换轮子的能力。要确保IT能力建设方向的准确性,需要建立可评价的转型绩效指标,引导职能领域保持统一的方向。为此,我们以“线上化(On line)、自动化(automation)、数字化(digitization)、服务化(service)”作为评估维度来度量场景数字化转型的成熟度(见图2),简称OADS。其中,“线上化”强调线下工作在线化,输出是落地数据资产;“自动化”强调人机协同,由机器代替或辅助人做重复性、操作性、规律性工作;“数字化”强调利用数据资产实现,即更全面、即时的“洞察、决策、执行”能力;“服务化”强调技术的开放性与能力的输出。围绕OADS,我们在管理及平台建设上,要求团队以迭代的方式不断梳理并丰富工作场景,通过持续性引入或迭代更先进的平台逐步提升场景OADS程度,场景与数字化平台形成虚实结合的数字化技术体系架构。

 

图片

图2:OADS的数字化转型绩效评估维度

 

二、“OPSP+OADS”的探索与实践

 

数字化转型技术体系方法在不同领域殊途同归。数字化转型涉及面非常广,包括建立数字化文化、打造敏捷型组织、加强数字化驱动的意识培养,人才培养,技术平台建设等。本节聚焦在使用技术平台支撑数字化转型的落地,以运维在技术平台落地方法作为案例介绍“OPSP+OADS”的方法。在IT运维、测试等不同领域的数字化转型过程,我们发现不同领域的数字化转型在技术平台的建设方法上殊途同归,即:以递归的方式将公司价值主张传递到科技条线,再从科技条线传递到运维、测试等具体领域的能力建设,并利用数字化思维的“连接、数据、赋能”三个关键词,打造“组织、流程、场景、平台”一体化的数字化技术体系,同时配套“线上化、自动化、数字化、服务化”作为 场景成熟度评价标准,支持公司客户体验优化,业务敏捷创新和运营管理精益高效,迎接数字化挑战与机遇。

 

 
1、数字化运维概况

 

面对VUCA的复杂运维数字世界,运维面临如何支持公司在高速行驶过程中换轮子的挑战,一是让“相对稳定且能较精确预知领域”进化为更加适应数字化时代,持续的稳定;二是适应并赋能企业转型持续探索、创新,驾驭不确定性的能力,持续的敏捷。要有效落实 “增加IT风险保障能力”、“加快业务交付速度”、“提高IT运营服务质量” 、“提升客户体验”四大价值,需要从体系架构、流程机制、组织能力、平台建设、场景构建等全面建设。

 

1)以OPSP打造数字化运维体系

 

基于OPSP打造的数字化运维体系能力框架包括4点(见图3):

 

  • 持续优化组织能力建设,主要以运行保障、业务可用性\连续性管理、资源管理、信息安全等为基础,扩展到流程经理、运营分析、IT服务、系统退出、运维开发等横向能力,建立学习型组织文化,推动组织个人能力的持续提升。

     

  • 以敏稳双态优化流程能力,吸收devOps、AIOps、SRE、ITOA、ITIL等方法论,结合“连接、数据、赋能”思维,由被动的流程管理向主动型的IT服务、IT运营转变。

     

  • 围绕时间角度,建立“盘前、盘中、盘后、节假日”的运维场景,打造人、事、时间、协同、环境为一体的线上场景,整合协同资源。

     

  • 推动“监、管、控、析”工具体系向一体化平台架构演进,利用自动化手段替代手工操作环节,推动运维研发一体化,并利用运维数据中台及运营场景,推动数据运营,探索运维智能化。

 

图片

图3:基于OPSP打造的运维能力框架

 

2)以OADS推动数字化运维体系成熟度持续提升

 

基于OADS方法论制定运维场景成熟度评估是为了适应机器及系统架构复杂性持续变化,包括四点:

 

  • 线上化,将工作场景标准化、规范化、在线化,落地生产运行过程的数据资产,比如应急处置、监控管理、值班管理、预案管理、演练管理等。

     

  • 自动化,将规律性、操作性、大计算量的工作,由人工向人机协同转变,提升工作效率、降低操作风险,比如实现chatOps的协同机器人,RPA的巡检机器人等。

     

  • 数字化,分析运维日志、监控性能、报警、配置等数据,建立数据驱动的“感知、决策、执行”能力,比如重要系统上下游链路全景、交易系统业务订单品种全景、业务状态感知等应用。

     

  • 服务化,将底层“监管控析”平台能力API化,上层通过可视化看板、数据指标、工具应用、IT服务台等形式,通过服务目录方式为用户交付运维服务。

     

结合OADS成熟度方法论,我们围绕“人、事、时间、协同、环境”五个要素,梳理了221项运维场景子项(见图4)。场景从作用角度主要包括:事件应急、变更发布、服务管理、监控处理、巡检操作、值班管理、数据运营、配置管理等维度。场景在每一个阶段从“线上化、自动化、数字化、服务化”四点的百分比来判断成熟度。

 

图片

图4:运维数字化场景成熟度地图

 

要确保运维数字化建设方向正确,所有场景的实施都需围绕运维4个核心价值创造来落地,让我们聚焦有限的资源做更有价值的事,比如图5是围绕“增加IT风险保障能力”这个价值创造的场景地图。围绕场景地图,流程经理牵头优化流程机制及操作规程,应用运维优化业务连续性保障的可观察、应急保障等能力,运维研发团队落地场景的研发与运营推广、基础设施团队加强IAAS及PAAS平台的健壮性、弹性。

 

图片

图5:围绕“增加IT风险保障能力”价值的运维数字化场景地图 

 

 
2、数字化场景示例:应急管理场景

 

运维场景是每个运维团队沉淀下来的宝贵知识,不同企业的运维团队场景各有不同,场景融汇了团队在组织、流程、平台方面的智慧,数字化运维需要用“连接、数据、赋能”的数字化思维重新将运维沉淀下来的智慧场景化。以IMS(事件管理)应急管理场景作为例,是我们数字化运维场景中横贯所有时间段的运维场景之一,是 “提升业务连续性”价值的关键措施。随着新技术引入,业务逻辑日逾复杂,软件迭代速度加快,以及外部日益严峻形势,影响业务连续性的因素越来越多,我们采用鱼骨图梳理了影响业务连续性因素(见图6)。

 

图片

图6:影响业务连续性因素分析

 

基于上面如此复杂的影响因素,我们建立了应急管理场景,场景由故障预防、故障发现、故障响应、故障定位、故障恢复、复盘改进6个环节形成闭环周期(如图7),整合了应急协同组织、应急流程、“监管控析”平台能力,并通过“数据、连接、赋能”的数字化思维打造应急处置场景。

 

图片

图7:故障管理闭环周期

 

1)以“数据驱动”重塑应急场景

 

 ① 数字化感知提升可观察性

 

出现故障后,运维专家需要必要的信息提升可观察性,辅助专家应急决策。

 

全数字化的业务及系统状态感知看板赋能应急洞察。提前构建应用系统主要运行指标与细分运行指标的实时数据,包括:关键时间的系统状态、业务性能状态、业务日志状态、组件状态、依赖状态、基础资源状态、上日变更信息状态、系统缺陷列表信息、依赖联通性指标等指标信息。业务及系统感知数字化看板将是我们应用系统运维的标配输出物。

 

并行推动关联上下游系统同步分析。关联业务通常包括上下游业务与前端渠道影响两类,在技术实现上采用两种方式,一是提前准备关联系统运行状态的数据可视化看板;二是建立协同线上化checklist任务,当异常启动后拉起IM应急群,将需确认同步分析的信息推送给上下游负责人,系统的上下游关系基于CMDB关系数据获取。

 

感知客户与行业动态。提前建立客户反馈渠道、业务动态信息的在线获取数据能力,在技术实现上包括在应用系统或客户端增加客户反馈信息功能,线上汇总客服反馈、IT服务台、终端拨测工具、现场客户端验证等信息,并将相关信息整合线上化。

 

 ② 数字化过程建立持续提升能力

 

以往异常出现后,主要依靠运维专家经验,以及现场IMS经理、值班经理临时决策推动故障恢复。在生产故障出现后,应急现场高度紧张,靠经验驱动的方式容易出现关键步骤遗漏、协同不畅、执行不到位等风险。构建数字化应急管理场景,首先是线上化处置过程,即通过最佳实践,将步骤固化与线上化,整合组织(主办及协同人员)、流程(处置流程机制)、平台(监控发现、自动化操作、数据看板等),通过自动化、数字化等手段,减少TTR。其次是数字化效率,线上化应急场景,实现了将发现时长(MTTI),平均故障响应时长(MTTR),平均故障定位时长(MTTK),平均故障恢复时长(MTTF)数字化,实现IMS应急处置效率可观察。同时,以实战练兵,应急可观察,让我们能够围绕MTTI, MTTR, MTTK, MTTF,设置处置时效,对于超时的环节进行自动化提醒,帮助值班经理、一线运维建立故障处置紧迫性,达到以实战练习处置能力。最后,数据驱动持续提升,在事中引入机器人督促处置,在事后评估推动应急效率分析。

 

2)以场景在线“连接”人、事、时间、协同、环境

 

场景的设计结合用户旅程、客户价值主张、设计思维等方法,围绕人、事、时间、协同、环境5要素形成解决方案,具体是要素如下:

 

  • “人”:包括值班经理、值班领导、IMS经理、运维(一线、二线)、IT服务台、研发、测试、安全、业务团队、故障机器人。

     

  • “事”:指异常发现后的处置,包括:申报故障(向干系人通知故障),感知重要业务指标、细分指标、关联业务影响,获知客户反馈、行业动态,评估应急三把斧决策是否就绪、执行问题定位工具、启动监管报备、落实客服解释等。

     

  • “时间”:主要针对重要业务异常事件发生,事件的触发时间包括:监控、巡检、业务反馈、IT服务台反馈等渠道推送的异常信息。

     

  • “协同”:主要针对人、事、机器的在线协同,我们在这个场景中重点打造“chatOps”与“任务管理”的协同机制。

     

  • “环境”:此场景工作主要针对应急ECC值班、远程应急两个环节,环境包括线下ECC值班室、企业IM群房间、场景工具等。

 

3)平台“赋能”运维专家应急

 

有效降低应急管理过程中TTR的时间,需要通过机制固化、操作规程优化、人员能力培养,以及工具平台赋能运维专家。平台赋能专家应急重点落实了以下几项内容:

 

 ① 人机协同让应急专家从琐事中抽离

 

当前,大部分故障需要多团队协同处理,且不同的运维人员能力水平也会导致延误战机,所以我们要求确认故障后遵循“先申报后处理”规程。场景中,我们将申报线上化,申报后由事件机器人从CMDB中获得故障涉及的运维、研发、测试、值班经理、IMS经理等干系人,自动化通知,并生成围绕此故障的协同群,将故障处置信息实时推送到协同群。机器人的引入,让应急人员只要花1分以内的时间,就能将故障信息扩散出去,促进并行处理效率,且故障专家能够从信息公告、解释、召集等琐事中抽离中来专注应急。

 

 ② “数据+机器人”建立平台化管理模式

 

以往在应急管理中主要依靠值班经理、职能经理现场管理,容易遗漏事项,需要将管理手段融入平台,比如以缩短故障发现管理为例,目前主要依靠提升监控覆盖面与降低报警响应时间。一方面,建立监控报警覆盖面数据运营,包括事后复盘、跨团队与跨系统横向排名等;另一方面,实时监测监控事件响应时效性,当受理过长时,由机器人在协同群公示,改善因未及时受理监控延误战机的风险。

 

 ③ 工具赋能定位及恢复

 

数字化提升应急预案有效性。从场景、预案、策略、操作序列的思路建立了线上化的应急预案工具,引入乐高式可组装的应急策略、应急机器人等能力,解决以往WORD版预案“内容多、难匹配、无保鲜”等问题。

 

工具提升问题定位效率。通过业务运行看板、统一日志工具、自动化巡检、最小颗粒度可用性看板等工具,辅助问题定位,尤其是在复杂故障时关联方可以并行使用工具分析,避免集中在个别专家身上。

 

提升应急沟通效率:通过线上预案策略提升应急沟通效率,比如当业务影响达到监控报送要求主动通知安全组监管报告,通知客服及业务部门制定客户解释话述,建立行业动态的沟通渠道实现线上checklist由指定团队落实反馈。

 

总的来说,在数字化应急管理场景中,围绕OPSP建立了岗位角色、工作流程、操作规程、工具平台等,并重点落实了OADS四个指标中的“线上化、数字化”两个成熟度维度建设,“自动化”成熟度维度上主要引入机器人加强协同,下一步将加强与生产系统及机器的自动化操作,并引入智能化的手段,建立机器人岗位,让机器人能够在现有“重复性”应急基础上,做更多“挑战性”、“复杂性”的决策与执行层的工作。

 

三、数字化转型技术平台建设方法推广的展望

 

综合上面的举例,我们认为在数字化转型的技术体系上,在科技条线以外的其它中后台运营条线也可以借鉴“OPSP+OADS”的方法,即结合公司转型的核心价值,以递归传递方式将公司价值主张传递到自己所处的职能条线,结合用户旅程、客户价值主张、精益创新、设计思维等工作方法,重塑领域工作场景。在数字化场景推进过程中,以“OPSP+OADS”作为方法论,用“连接、数据、赋能”三个关键词指导具体举措,建立条线内数字化转型架构模型,围绕数字化转型成熟度绩效指标,有方向、有目的进行投入管理,对于可复用可共享的技术平台以平台化的方式沉淀,持续推进场景数字化。

 

作者丨李立峰 彭华盛
来源丨公众号:上交所技术服务(ID:SSE-TechService)
dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
活动预告