作者介绍
钱立镓,负责某城商银行监控系统管理和建设,具有丰富的监控系统建设、运维及项目管理经验。参与某城商银行统一监控平台、应用性能监控平台、自动化管理平台等多个运维管理平台架构设计及建设工作。对数据中心监控体系建设、自动化运维有深入研究和应用。
近几年来,随着某城商银行数字化建设发展,银行系统引进了大数据及人工智能技术建设,同时银行监控管理需要整体优化管控策略和监测工具。
立足国内监控政策环境和自身运营实际,我行现提出“监-管-控”闭环监控系统改造策略,从监控系统、一体化运营管理平台、自动化控制三个方面系统推进,以期为银行监控管理的发展提供可供借鉴的发展思路。
大数据及人工智能技术在监控领域的应用使银行系统的监控面临更为重要的机遇和挑战,某城商银行服务主体对业务可用性要求不断提高,需要不断优化现有监控平台及监控策略,需要形成监控标准化体系。因此,监控管理亟待更新监控管理办法,制定相适应的管控策略。
一、某城商银行监控管理系统升级改造的背景
我行监控系统面临的主要问题有:
银行监控系统整体来看,普遍存在不同监控平台监控策略、告警事件、数据归集分散的问题;
监控工具方面,监控控工具展示的更多的是面向专家和技术人员使用的监控视图,对ECC一线整体监控可视化需求的实现不足;
业务监控方面,自动化巡检及处置流程覆盖面积小,覆盖场景单一,缺乏有效的自动化开发管理流程。
由此,我行在现有问题的基础上积极探索解决方案,我行根据监控数据现实及服务需求制定了“监-管-控”一体化的闭环管理方案,以期为银行的监控系统改造提供切实可行的方案。
二、“监-管-控”闭环监控系统方案内容
监控系统重点改进主要涉及监控信息采集及事件处理流程、应用系统的改造、基础设施故障的告警事件、应用和业务场景故障的应急响应等几个方面。具体监控内容如下:
以ITM和ZABBIX为监控信息采集核心,通过syslog和snmp等标准协议,将存储、网络设备、安全防护等专有设备的监控事件统一归集管理,利用Omnibus形成标准的监控告警事件,与短信平台、ITIL平台进行数据集成,形成标准的事件处理流程。
对应用系统进行改造,形成格式化的交易流水日志,并通过大数据分析平台对应用日志进行统一采集、归档、展示分析;添加应用心跳监测日志,确保在不同交易特征时段都可实时掌握应用可用性数据,保障监控信息可靠、有效。
针对基础设施故障,开发报警事件架构分布图,根据系统架构层级关系、告警事件及应用映射快速定位,并与自动化工具集成,形成联动,如:存储IO故障,应用缓慢的根本原因定位,采取容灾切换规避等。
针对应用或业务场景故障,制作基于业务日志的实时故障分析展现视图,如:ATM交易流水中,他代本报错,是全部他行报错,还是部分他行报错,处理的机制不同等。
提供针对告警事件、业务日志的AIOps智能化分析功能,针对告警事件和日志异常进行告警提示,协助管理人员快速发现、定位故障。
一体化运维管理平台主要涉及的三个方面内容有:
通过一体化运维管理平台实现针对监控对象及其构成组件的自动化登记,以及各组件的监控策略部署控制,并与监控工具集成,实现实时控制。
形成监控对象—监控KPI—监控策略—监控覆盖(实例化)的监控档案管理体系,针对监控事件和监控策略进行编码,形成结构化的告警事件管理和策略管理。
与CMDB集成数据,并形成可由容灾管理平台调用的资产管理数据源,向各应用平台提供资产及监控策略管理数据。如下图所示:
一体化运维管理平台与各运维管理工具架构图
自动化控制主要从以下三个方面进行改造升级:
针对各类报警事件及其相关场景,开发对应的巡检处置流程,目前我行已陆续完成整理了十六大类的判别场景手册。例如网银系统交易响应时间过长报警,配合中间件监控排查拥堵路径,定位拥堵路径后,关闭前端交易指示信号灯,重启应用进程,再打开前端交易指示信号灯,恢复交易路径正常运行,需工具实现固化,便于执行与管控。
在现有流程的基础上开发标准化的容灾容错处置流程,形成标准化、自动化的容灾容错处置机制,开发自动化调度流程,针对多系统同时切换时的时序调度和逻辑关系进行线上化、自动化管理。
一体化运维管理平台与自动化处置平台、容灾管理平台进行数据接口集成及调度任务集成功能,实现通过统一平台管理调度自动化任务,并将告警事件场景与对应的处置流程线上对接管理;同时能够针对巡检任务反馈数据展示巡检结果。
三、“监-管-控”闭环监控系统方案的优势
通过细分化的专业视图将抽象的应用系统逻辑关系、基础设施与业务系统的关联关系等可视化,在大量报警事件同时产生时,可以直观的定位故障影响范围和报警事件优先级情况,帮助值机人员明确故障处置的优先级,提高关键故障的解决效率。
监控策略自动化同步并线上管理可以最大程度上的保证数据的一致性和准确性,做到监控策略与监控对象匹配的实时更新,在保障监控对象来源(CMDB)数据准确的前提下,管理人员可以快速定位监控策略盲点,通过分析监控覆盖情况,有针对性的补充监控策略。
我们通过不断的监控告警场景-自动化处置任务的开发积累,可以做到针对发生过的故障快速定位、快速处置,保障了应用系统的业务可用性,提升客户体验。
通过一体化运维平台整合数据接口,作为监控体系内的数据中台,提升监控体系的数据治理能力,提高整体数据中心的数据一致性和管理效率;并通过一体化运维平台将整个“监-管-控”的三部分串联起来,形成一个有机的整体,打通监控管理的数据通道,实现“监-管-控”这一闭环管理流程。
由于事件统一管理,所以海量的、格式化的监控运维事件可以作为AIOps的数据源,进行针对AIOps新技术的开发和探索,通过聚类算法等AI技术,对海量监控运维事件进行分析,帮助运维人员快速准确的发现、分析和定位问题。
四、“监-管-控”闭环监控系统方案的未来趋势与展望
由于监控对象和监控策略的线上化管理,监控对象的来源主要是配置管理数据库(CMDB),监控策略的来源主要是监控系统自身,所以在监控策略实例化(监控对象与监控策略进行匹配)的过程中可以对双方的数据源进行二次复核,提高配置管理数据库的数据准确性,同时也可以增强监控策略的覆盖率;但该项工作可能需要定期的通过人工确认和复核,需要有与之相匹配的管理流程和人员定期跟进。
自动化处置流程的开发是一个场景与处置流程的积累过程,可以理解为运维监控体系的流程化知识库,将报警事件-场景-处置流程自动化的串联起来后,通过不断完善整个数据中心的故障处置知识库,将尽可能多的故障场景纳入到自动化可控流程中来,既可以节省数据中心的人力成本,也可以提高数据中心的故障处置效率。
现在各厂商或开源软件提供的AIOps工具有很多,但是在实施落地AIOps项目的时候,数据源往往成为项目的瓶颈所在,具有数据源分散难于采集,数据源类型过于离散难于分析等问题。在完成一体化运维管理平台的建设后,相当于具备了监控体系数据中台的功能,将分散的数据集中于此,并进行初步的格式化和标签化,为后续作为AIOps的数据源提供了环境基础。
五、结语
本文重点论述了“监-管-控”闭环监控系统方案提出的背景、主要内容、优势及未来发展趋势和展望。随着智能化、自动化的推进,我们认为“监-管-控”闭环监控系统方案能够优化整体系统性管理,实现自动化运行,进一步提高运维效率,降低运维风险,从而形成管理上的良性循环。
参考资料
马海明、蒋伟林、廖俊杰.《广发银行集中监控平台:从面向资源到面向业务监控》.中国金融电脑.2013年第6期.
杨帆.《银行数据中心一体化监控系统的研究与实践》[J].中国金融电脑,2017(09):64-66.
黄勇.《基于Tivoli的银行核心网络监控系统的设计与实现》[D]. 电子科技大学 2013
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721