建设银行在智能运维上的探索与实践

包航宇 2023-08-22 10:33:52
本文根据包航宇老师在〖2023 全球敏捷运维峰会-北京站〗现场演讲内容整理而成。 

图片

 

作者介绍

包航宇,建设银行业务经理。建设银行运营数据中心技术创新发展处创新研究组组长,智能运维国家标准核心编委、ITSS智能运维标准评估师;

具有近20年金融行业运维工作经验,曾负责建设银行全行IT服务管理体系建设、数据中心生产质量管理、智能运维项目群管理和创新研究等工作,参与的研究成果曾获《亚洲银行家》“Best AI Technology Implementation”国际奖项、银监会“中国银行业信息科技风险管理研究成果一等奖”等。

 

一、背景

 

 
1、智能运维迎来机遇

 

从1956年达特茅斯会议首次提出人工智能,到现在风起云涌的人脸识别、智能制造、无人驾驶、ChatGPT等各种应用,人工智能已经进入爆发期。我们国家也早就从战略视角提出了产业智能化改造的号角。作为信息技术应用的排头兵,金融行业的数据中心也在全速向AI赋能式运维转变。

 

主要表现为三个特征:一是消除数据壁垒,为AI价值最大化奠定基础;二是加深算法面向运维场景的应用;三是在AI的驱动下,自动化的能力有了更大的发挥。

 

 
2、智能运维面临挑战 

 

然而,机遇和挑战并存,金融行业的IT运维业面临着前所未有的压力和挑战。

 

以建设银行为例,这些年的设备达到十万量级,日交易量突破百亿笔,数字化经营要求我们在安全稳定运行的基础上进行超高频次的投产。用户体验、安全防护等要求也日趋严格。因此,我们要从“面向系统的运维”“面向业务的技术运营”转变,加强风险的管控,提升业务的响应,加快资源的交付,实现标准的运营。

 

智能运维是应对这些挑战的刚需。

 

 
3、智能运维建设目标

 

建设银行从2019年开始启动智能运维建设,目标是构建以感知力、控制力、决策力为支撑的企业级智能运维平台,实现运维活动的全流程、自动化、智能化的协同发展。

 

但智能运维不是新技术的照搬,也不是简单的场景堆叠,而是体系化的建设过程。如果把运维比作一棵树,那么底部就是数据管理、分析决策自动控制这三个扎实的根系,它们汲取大数据、人工智能等新技术的营养,通过组织的融合和创新,将感知、决策和控制三大能力输送到资源供给、应急响应、敏捷交付等各种运维场景的枝干中,从而收获质量可靠、安全可控、效率提升、成本降低等运维成果,支撑企业长久、繁荣发展。

 

下面我从三大支撑能力和四大应用效果方面同大家分享一下建行的实践情况。

 

二、实践情况

 

 
1、感知力——一全景数据技术支撑可观测运维

 

感知力相当于运维的眼睛,通过丰富的运维数据,为各类运维应用提供信息支持。

 

建行已经建立了具备上万个属性和百万量级实例的运维数据模型,沉淀自动化校验规则,为智能运维应用提供准确可靠的数据服务。

 

同时我们以统一的视图方式展现IT全景架构资产和运行数据视图,串接从业务规划、开发设计、测试投产、生产运维全领域的应用,有效支持了可视化运维。

 

 
2、决策力——以智能分析技术支撑主动运维

 

决策力相当于运维“大脑”,也是智能运维的核心能力。通过构建运维专属知识图谱和运维专属人工智能算法辅助决策和判断,支撑主动运维。

 

我们集成了专家规则、统计学习和深度学习等命名实体识别方法,构建了百万级别实体和千万级别关系数的运维专属知识图谱,提供关系、指标、告警、日志等多模态数据的毫秒级查询;可以提供交易指标比对检测、平均响应时间突变模式识别、假集群检测等场景化算法服务;可以实现跨设备、跨领域的风险检查,使检查范围、检查方式得到几何级提升。

 

 
3、控制力——以自动实施技术支撑高效运维

 

控制力相当于运维的“手脚”。利用自动实施技术执行自动化、流程化操作,解放运维人员,提升运维效率和准确率。安全运维管理提供一站式安全认证,和统一权限管理;自动化运维为智能运维提供自动化脚本执行、调度和管控能力,支持对服务器、网络、存储等对象的自动操作;基础运维可以为智能应用提供采控、消息中心、服务注册、租户管理等基本功能。

 

下面,我从高效支付、安全管控、快速响应、运营支撑等4个方面介绍我们的一些效果应用。

 

三、应用效果

 

 
1、更“强”——满足数字化经营敏捷交付需求

 

构建面向应用的端到端交付池,变被动交付为主动交付,从根本上提升面向未来的服务供给水平,满足数字化经营敏捷交付的需求。

 

推进基础设施规划与前瞻式布局,加强资源的弹性供给,提供“一站式”资源供给能力,缩短了平均交付时间;实现一键式版本部署、变更智能协同和一键式回退,在年实施的上万次变更中,绝大部分的应用版本都是自动化方式部署;打通开发、测试与生产变更流程断点,建立敏捷投产通道,投产部署时间从周级缩短至日级,比传统运维的效率提高约70%。

 

 
2、更“准”——提供安全精准的业务洞察能力

 

以加强安全风险管控为目标,打造细到点击的应用监控体系,提升业务洞察能力。建设一体化权限管控与操作审计体系,控制操作风险。实现毫秒级采集、1秒级监控;针对特征交易,提供动态基线、小样本类型交易累积、窗口累积、告警自适应升降级等告警类型,满足个性化需求;提供单笔交易完整链路跟踪、根因辅助分析等故障分析能力;基于知识图谱关系分析故障影响,设备自动探活,各领域告警同频共振,主要级别告警聚合率接近100%。

 

 
3、更“快”——构建快速有效的应急响应能力

 

为了更快地响应业务,我们对应急能力进行了全面提升。首先是贯通了系统软件、IT设备、基础设施间运行与操作数据,并以智能运维算法为依托,构建起以系统为核心的运维全景关系图谱,形成了跨系统、跨领域的作战地图。

 

在故障发生时,智能监控告警可以及时感知系统故障,并通过整体作战地图、交易路径图、系统作战地图等一系列可观测和可视化的手段,实现故障的分钟级发现和分钟级处置。

 

 
4、更“优”——依靠科学管理提升运维质效

 

前期,在人民银行的大力支持和指导下,我们与工、农、中、交等同业开展了共研,形成技术运营指标400多项,促进银行业数据中心创新能力、服务质量及风险控制水平的提升,目前该研究成果已经在建行落地实施和推广。

 

在精准度量运维活动、合理配置资源、提升运维质效方面发挥重要作用,比如原先每到投产日,全国各地开发中心的数百人,涌到数据中心现场支持投产上线的“盛况”已经一去不复返了,智能运维替代“人肉运维”,切实降低了运行成本,也有效避免了出现聚集性疫情的风险。

 

 
5、共促运维数字化转型:智能运维国家标准

 

2021 年 10月起,建行作为工作组组长单位,同金融、交通、能源等行业的数十家企业一同研制《智能运维 国家标准》,目前该标准已提交至国标委,进入发布前的冲刺阶段。同时,其阶段性成果团体标准《信息技术服务 智能运维 通用要求》(T CESA 1172—2021)也已发布,正在开展首批试点评估工作。智能运维相关标准的研制还被写入国家十部委联合发布的《“十四五”国家标准体系建设规划》,成为国家关注的重点领域标准。

 

 
6、持续发布《中国智能运维实践年度报告》

 

标准的编制过程是“以行促知”,而“知”的重要意义在于指导“行”,在标准研制的同时,我们联合数十家单位,围绕国内外智能运维趋势、标准解读、实践案例分析等方面进行了调研,研究智能运维的当前挑战、市场生态及演化趋势,已发布 2021 和 2022 年度两期《中国智能运维实践年度报告》。

 

四、未来展望

 

未来,建行沿着“数字化、智能化、一体化”的技术演进路线,对内建设持续进化型智能运维、保障集团业务稳健运营;对外共建开放共享型运维生态、促进智能运维产业革新,使人工智能在运维领域的创新成果成为金融行业的生产力、运维产业的急先锋。我们力争做好三个角色:

 

一是做人工智能应用的“践行者”,实现复杂融合场景下的智能化应用,向着无人、自愈的智能数据中心努力;

 

二是做新型数据中心的“守护者”,为将来超大型数据中心集群提供多地多中心一体化运管能力,支撑未来百万台级服务器的运维规模;

 

三是做智能运维产业的“布道者”,推动国标的尽早发布,引导智能运维产业发展,构建共商共建共享的合作态势,促进我国信息化领域的“双循环”。

最新评论
访客 2024年04月08日

如果字段的最大可能长度超过255字节,那么长度值可能…

访客 2024年03月04日

只能说作者太用心了,优秀

访客 2024年02月23日

感谢详解

访客 2024年02月20日

一般干个7-8年(即30岁左右),能做到年入40w-50w;有…

访客 2023年08月20日

230721

活动预告