银行业运维大数据智能分析平台建设实践

史春萍、韩舸、房蒙 2024-01-03 10:39:19
作者介绍

中国进出口银行运维中心  史春萍、韩舸、房蒙

一、案例背景

 

当前银行业运维风控监测一定程度上存在监控范围有限、数据整合不足、自动化程度不高、安全风险意识不强、合规性监测缺乏等问题。随着银行业务数字化程度不断提高,以及监管机构对银行信息科技风险监管的持续加强,银行业金融机构需不断提高自身信息科技风险治理水平,持续加强自身信息科技风险管理能力,亟需通过自动化、一体化、智能化的运维大数据智能分析平台解决上述痛点,探索AIOps在银行业运维风险合规领域的应用。

 

二、建设思路

 

按照进出口银行十四五规划路线,运维大数据智能分析平台建设规划围绕:大数据应用、运维对象精确绘制、关联聚合透视、智能化根因分析等四个方面进行整体建设,方案总体概括为“一套标准运维数据建设规范+两大技术支撑平台+六个运维数字化场景”的“1+2+6”的运维大数据发展体系,是推进口行运维领域数字化转型和大数据应用全面落地的重要实施路径与基础理论框架。

 

图片

 

运维风险合规平台位于运维大数据的消费场景层,主要针对运维人员运维过程中的规范性和危险性进行评估,一方面建立高危命令统一管控机制,加强运维操作的风险监测和安全控制,提升运维权限管理自动化水平;另一方面打通现有的运维系统,实现运维过程高危命令的安全管控,实现运维操作的事前监测预警。基于运维数据平台与运维工具等系统进行数据互联互通,实现自动化数据、ECC门禁数据、ITSM数据、巡检数据、堡垒机数据、人脸识别系统数据等数据的实时采集和共享,并根据实际需求定制风险合规场景,实现数据的风险管控、智能处置等,保障进出口银行业务的稳定性和安全性,提高运维效率和质量,增强风险防范和控制能力。

 

三、技术方法

 

1、通过运维数据平台,采集源系统数据,并进行清洗、加工和转换;

 

2、结合“商业银行信息科技风险管理指引”等监管指标、IT内控制度、过往银行操作失误案例等建立起的风险场景模型和知识,与采集集成的运维操作数据进行分析对比;

 

3、结合运维操作相关数据进行建模分析,利用AI算法对运维指标的实时情况进行预测;

 

4、根据风险视图识别出的行为列表及建议处置方法,在运维操作最终违规之前,方便进行申诉或处置;

 

5、提供风险评估报告,处室管理人员根据算法计算出风险值,针对风险值较高的人员或处室进行及时干预;

 

6、通过可视化平台形成事前预警和风险违规操作的大屏展示,为后续风险处置等管理活动提供依据。

 

图片

 

四、平台展示

 

运维风险合规涉及的场景众多,以下通过三个典型场景进行介绍。
 
 
1、堡垒机高危命令监测场景
 
IT运维过程中堡垒机作为一道安全屏障,对外部和内部用户的访问请求进行统一管理和控制。当有用户尝试通过堡垒机执行一些高危命令时,例如删除重要文件、修改系统配置、执行外部程序等,这些命令会触发堡垒机的高危命令监测机制。
 
基于堡垒机运维操作日志获取,针对当天操作人员的堡垒机操作记录,与高危命令库进行比对,一旦匹配到相应的规则,就会触发警报或阻止命令的执行。例如,如果监测到运维人员尝试执行“rm -rf /”这样的高危命令,堡垒机就会阻止该命令的执行,给出相应的警告或提示。同时提供含高危命令的堡垒机操作记录,进行风险监测和审计。
 

图片

 
 
 
2、堡垒机账号串用监测
 
当有新的运维人员加入时,管理员需要在运维堡垒机上为其创建新的账号,并分配相应的权限。这些权限可以根据堡垒机的安全策略和业务需求进行定制,以确保新账号能够满足运维工作的需要,同时避免潜在的安全风险。
 
在日常的运维工作中,运维人员需要通过自己的账号登录堡垒机,执行相应的操作。堡垒机会记录每个账号的登录信息和操作记录,以便于后续的审计和监控。
 
该场景主要监测运维人员借用或转接堡垒机账号的不合规情况,通过检查操作人员本地或远程运维室堡垒机系统的登录信息,并核查当天操作人员的ECC机房进出记录,提供堡垒机系统账号串用的操作人员清单,进行风险监测和审计。
 

图片

 
 
 
3、ITSM变更实施非常规变更窗口操作监测
 
ITSM变更实施的变更窗口是指在IT服务管理过程中,为了实施变更而设定的一个时间段,通常是在非正常工作时间或者是特定的时间段内。在这个时间段内,IT运维人员可以对IT系统进行变更操作,以修复系统故障、增加新功能或者改进系统性能等。
 
运维风险合规通过数据分析,计算出变更实施开始时间,在业务高峰等非常规变更窗口时段范围内进行操作的违规数据,并进行监测和审计。
 

图片

 

 

五、建设成效

 

构建以监测、预警、推送、申诉、审计、评估为支撑的运维风险合规平台,实现运维活动的全流程、自动化智能化的协同联动。
 
成本节约效益:通过有效的运维风险管控,可以预防或减少因设备故障、系统崩溃等意外事件导致的损失,能更合理地配置资源,提高资源利用率,降低运营成本。
 
管理水平提升:根据风险规则配置,快速响应风险审计业务场景需求,并对历史风险数据进行趋势分析,使管理人员及时识别出风险点,识别效率可提高到T+1,有效提升风险管理水平,降低运维活动风险。
 
社会声誉效益:推动大型金融机构风险控制流程化,提升进出口银行在智能风控领域的行业影响力,有助于保障客户的资金安全和银行的声誉,提升客户对进出口银行的信任度。

 

dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
最新评论
访客 2024年04月08日

如果字段的最大可能长度超过255字节,那么长度值可能…

访客 2024年03月04日

只能说作者太用心了,优秀

访客 2024年02月23日

感谢详解

访客 2024年02月20日

一般干个7-8年(即30岁左右),能做到年入40w-50w;有…

访客 2023年08月20日

230721

活动预告