全面解答中小银行在业务连续性建设和管理上的痛难点

李明林 2020-03-12 11:29:00
作者介绍

李明林,原IBM业务连续性咨询顾问,现任西安瑞蓝创软件公司首席架构师。在大型企业,尤其是银行领域具有丰富的业务连续性规划和灾备体系规划经验,为国内多家大型商业银行及中小城商行、省级农信社提供过业务连续性咨询和灾备体系建设咨询。

 

为进一步巩固银行业保险业网络安全专项治理工作成果,全面夯实中小银行机构业务连续性管理基础,切实防范因信息系统服务异常导致的重要业务运营中断风险,根据《2019年银行业和保险业监管统计信息工作要点》的有关要求,银保监会下发了《中国银保监会办公厅关于开展中小银行机构业务连续性相关风险整治工作的通知》。

 

关于业务连续性的具体监管要求,中国银保监早在2009年后,相继下发了《商业银行信息科技风险监管指引》(银监发〔 2009 〕19号),《商业银行数据中心监管指引》(银监办发[2010]114号),《商业银行业务连续性指引》(银监发【2011】104号)等政策法规要求,对商业银行业务连续性管理提出了全面的指导意见和考核标准,但中小商业银行受到各种主客观条件限制,存在大量业务连续性相关的工作落实不到位,业务连续性管理不合规的突出问题。通过此次风险整治工作,推动中小银行机构在2020年底前建设完成符合监管要求的容灾备份系统;2021年底前所有重要信息系统基本具备真实接管生产的能力。

 

此次整治工作全面涵盖了业务连续性从组织管理、资源建设到业务连续性演练和应急处置的全过程,提出的整治内容也切中了各中小商业银行业务连续性建设及管理问题的要害。

 

《商业银行业务连续性指引》(银监发【2011】104号)中,作为监管机构的银保监会建议商业银行根据其规模大小及业务特点,分别制定短、中、长期的实施规划,不断提高业务连续性管理的成熟度,考虑到各金融机构的“资源禀赋”存在较大差异,监管规则通常对不同类型金融机构制定不同目标,一般而言,对系统性越重要的机构要求更高。

 

本次整治,监管机构是以灾难恢复作为业务连续性管理提升的重要抓手,对中小商业银行开展监管工作。当前,大型银行对金融科技的持续投入,关于跨中心快速实现灾备切换的新闻时常见诸报端,在业务连续性的管理上日趋成熟,按照信息系统灾难恢复服务能力成熟度模型(DRS-CMM)评估,普遍处于充分定义到量化级控制的水平(能力级别3-4);而对于广大的中小银行机构而言,考虑到成本收益原则,灾难恢复的能力目标应达到充分定义的灾难恢复级别(能力级别3),但在有限的物力、财力、人力投入下,多数中小银行勉强能在“设备、设施与环境”上达到了计划和跟踪(能力级别2)的水平,在“技术团队”、“技术过程”和“项目与组织过程”三方面的能力都极其有限,灾难恢复的工作重点相对集中在技术方面,管理和过程控制的严重不足,也间接佐证了监管文件中所指出的“组织架构不健全,履职不到位”、“业务影响分析缺失或存在较大的不足”、“重要业务演练不足”等现状。

 

 

在监管文件的整治工作提及的四个大的方面:业务连续性日常管理、业务连续性资源建设、业务连续性演练及应急处置。首先业务连续性管理是一套多角度、立体的管理架构,包括贯穿突发事件事前、事中、事后的处置策略、组织架构、整体方法、建设标准等一系列管理内容。在本次专项治理中已基本全方位覆盖到了金融机构业务连续性体系的各个要素:组织架构建设、流程建设、业务连续性应急演练及持续改进等,提出了相对明确的目标,要求金融机构进行全面自查和整治。

 

针对监管文件中具体的整改内容,总结如下几点问题与建议,以供参考。

 

Q1:什么是业务连续性管理?业务连续性管理与应急管理和灾备体系建设的关系是什么?

 

业务连续性管理BCM(Business Continuity Management)是一项综合性的管理活动,通过识别组织所面临的潜在风险,评估风险可能对组织造成的影响,建立一套组织、流程和资源相配合的体系,提升组织应对风险的能力,保障组织价值创造活动的持续进行,有效提升组织的品牌声誉和相关方利益。

 

首先业务连续性管理是全面风险管理的重要部分,其关注的核心重点是业务的中断,整个业务连续性管理的生命周期都应该以业务对象为主体,涉及的内容大且全,包括日常的业务连续性管理和应急管理两部分。而灾备体系作为灾难恢复的整体管理体系,用以应付导致或可能导致大范围业务运营中断的事件(灾难事件),属于业务连续性管理的体系的核心部分,不涉及影响业务连续运行的非灾难性质事件。

 

 

通过上图可以看到,业务连续性管理包含了保障组织业务连续运行的方方面面,应急管理和灾备体系管理都是其中重要的组成部分。

 

 

以上图中某公司的BCM框架为例,可清晰的了解BCM覆盖的范围,其涵盖范围远远超出了日常提及的灾备技术体系的范围。

 

Q2:商业银行业务连续性组织管理架构应该如何组织?各层级、各部门的职责是什么?

 

业务连续性的组织架构应分为两部分组成,日常业务连续性管理的组织机构和应急处置的组织机构。

 

日常业务连续性管理的组织架构,应契合当前机构的日常运营模式,来保障业务连续性日常管理工作的进行。

 

业务连续性日常管理组织的构成与职责如下:

 

 

同时应建立业务连续性应急处置的组织架构,包括应急决策层、应急指挥层、应急执行层和应急保障层,应区别于日常管理的长流程,应体现应急处置的紧迫性和高效决策执行,与应急处置流程相适应。

 

需要说明的是,商业银行业务连续性日常管理组织和应急处置组织并不是互相无关的两个组织,而是一套统一的人员,在不同时期的职能角色转换。

 

Q3:业务连续性组织履职中存在的主要问题有哪些?应如何改善?

 

从业务连续性的日常管理工作来看,业务连续性组织架构不健全,许多地方城商行尚未成立业务连续性委员会,部分商业银行虽然成立了业务连续性委员会,但由于业务连续性委员会是一个虚拟的组织,因此存在履职不到位的问题。

 

机构的董事会(理事会)、高管层未审议业务连续性管理事项,决策不当导致灾备资源建设等重要工作严重滞后;未建立职责分工清晰的业务连续性日常管理和应急处置组织架构;业务连续性管理制度缺失或不健全;二、三道防线未充分识别和揭示业务连续性管理问题,督促整改工作不到位。在构建日常管理组织架构的工作中,需要重点考虑以下几点:

 

(1)获得高级管理层的重视。商业银行高级层要能够充分意识到业务连续性管理体系建设的重要性及体系建设对于本行今后长期发展的重大意义,业务连续性建设是提升商业银行市场竞争力的重要举措。

 

(2)明确主管部门。中小型商业银行通常将风险管理部作为业务连续性管理的主管牵头部门。

 

(3)利用原有组织架构。许多商业银行已经成立了应急组织架构,该组织架构与业务连续性委员会的架构功能类似,建议考虑该委员会承担业务连续性管理委员会的职责,以避免组织过于冗余。

 

(4)对业务连续性工作的持续评价。业务连续性管理体系的完善是个长期持续投入的过程,确定各阶段资源的投入和目标,至少以年度为周期对业务连续性工作进行评价,作为重点考核目标。

 

(5)通过使用业务连续性管理工具,实现业务连续性管理全过程的电子化管理,做到业务连续性管理计划可审批、过程可监管、结果可审计,实现业务连续性组织架构各层级的充分履职。

 

Q4:业务影响分析应该如何开展?

 

业务影响分析是指对组织的各项业务功能及各项业务功能之间的相关性进行分析,确定支持各种业务功能的相应信息系统资源及其它资源,明确相关信息的保密性、完整性和可用性要求。重点工作分为四个部分,从业务出发,最终落地到信息系统:

 

(1)重要业务的识别。根据现有业务产品、客户及渠道的内容,确定重要业务的目录,统计重要业务的业务属性和相关的经济、非经济中断影响数据。

 

(2)重要业务相关性的分析。分析各个重要业务的具体业务流程,确定业务之间的依赖关系。

 

(3)重要业务的重要性评估。基于收集到的重要业务相关数据,进行量化与非量化的评估,按照监管要求确定恢复的优先级。

 

(4)支持重要业务的信息系统资源及其他资源的映射关系。分析重要业务开展所依赖的必要信息系统资源,从而明确信息系统恢复的优先级。

 

整个业务影响分析的过程涉及到较强的专业性,需要对金融行业有系统性的认识,能覆盖从业务到信息系统全部内容,同时也对金融机构日场业务连续性管理提出要求,特别是在以下方面:

 

人员的专业性。能充分理解业务和信息系统的差异和支撑关系,所管辖的业务的边界和详细流程,对自身组织提供的业务之间关联性有清晰的认识。

 

业务统计数据。不从维度的业务统计数据,以满足业务影响分析所需。

 

Q5:如何制定完整的业务连续性计划(BCP)?

 

BCP可理解为一个文档体系,包含总体应急预案、业务条线应急预案、信息系统专项应急预案、保障类应急预案、外部机构应急预案等。

 

 

业务连续性计划的构建是一个长期而持续的过程,需要常抓不懈,久久为功,并且需要通过多次演练和实战验证其有效性、合理性、完整性。

 

总体预案和业务条线专项预案、信息系统专项预案可参考如下的三个目录。

 

 

 

Q6:商业银行业务连续性资源建设主要存在哪些不足?如何进行自查?

 

《中小银行机构业务连续性相关风险整治工作的通知》中,指出了中小型银行在业务连续性资源建设中存在的资源不足问题。这些问题在许多中小银行非常普遍,究其原因还是在于对业务连续性管理的重视程度不足,资源投入有限。尤其是按照通知中,关于灾备切换演练要真实接管业务,且接管时间不能过短,要能有效验证灾备系统承载重要业务能力的要求,大多数中小银行目前尚不具备如此的切换能力,主要的资源缺口体现在以下的方面。

 

(1)生产中心基础设施及重要设备本地冗余备份不足。机构生产中心供电线路为单路市电,且没有备用发电设备或备用发电设备缺乏可靠油料供应;不间断电源系统(UPS)冗余度不足或供电能力不足,供配电设备及其关键部件存在单点隐患;空调设备冗余度不足,制冷容量规划不足;网络链路、重要网络设备、重要信息系统主机等重要设备存在单点隐患或冗余度严重不足。

 

(2)灾备中心建设缺失。根据《商业银行数据中心监管指引》总资产规模一千亿元人民币以上且跨省设立分支机构的法人商业银行,及省级农村信用联合社应设立异地模式灾备中心,重要信息系统灾难恢复能力应达到《信息安全技术信息系统灾难恢复规范》中定义的灾难恢复等级第5级(含)以上;其他法人商业银行应设立同城模式灾备中心并实现数据异地备份,重要信息系统灾难恢复能力应达到《信息安全技术信息系统灾难恢复规范》中定义的灾难恢复等级第4级(含)以上的要求。不少省级农村信用联合社及商业银行异地灾备建设等级不达标。部分省会以外的城市商业银行仅建设了3级(数据级)的同城灾备,不具备业务接管的能力。

 

(3)灾备中心资源缺失。灾备中心建设时,往往受限于投入,灾备中心各类资源通常相较于生产中心减配,不能支撑重要业务长时间在灾备中心运行,主要体现在以下方面:

 

  1. 灾备数据中心等级过低,不满足金融机构数据中心的基本要求。有很多中小城市商业银行的灾备中心都是由原有老数据中心改造后承载灾备中心的职能,很多机房的基础设施都存在着供电功率不足,冗余度不够、制冷不足的问题,一旦切换作为生产中心运行生产业务,存在较大风险。

     

  2. 灾备中心与生产中心按照1:2甚至更低的比例配置,冗余度不足,性能不足,将生产切换至灾备中心运行时,存在较大的高可用风险,因此不能支撑长时间将生产切换至灾备中心的真实演练进行。

     

     

  3. 灾备中心网络线路资源不足。主要体现在:

    1)各网点不具备直接连接至灾备中心的独立线路,需要通过生产中心绕行至灾备中心。当实际发生灾难生产中心不可用时,分行网点依然无法接入灾备中心进行正常业务;

    2)灾备中心尚未建立与人民银行清算中心、银联、银联数据等外部金融机构的外联线路;

    3)灾备中心互联网区尚未建立互联网出口,或灾备中心互联网区安全设备不足,长时间的真实切换将暴漏较大的安全风险。

     

     

  4. 灾备中心运维人员不足。多数中小银行未能配备专职的运维管理人员,兼职人员对灾备中心的运维管理流于形式。

 

本文将在文末【阅读原文】附上《商业银行业务连续性专项治理工作自查表》,可参考进行自查。

 

Q7:商业银行开展业务连续性演练的现状、困难和破解之道?

 

《治理工作通知》指出,目前中小银行机构业务连续性演练的主要问题包括:机构近三年的业务连续性演练未覆盖全部重要业务;业务部门未充分参与相关业务连续性演练;未开展真实接管业务的灾备切换演练,无法有效验证灾备接管生产能力;近一年未开展任何重要信息系统从生产中心切换到灾备中心并真实接管业务的演练,近三年未开展核心业务系统从生产中心切换到灾备中心真实接管业务的演练;灾备切换演练虽真实接管业务,但接管时间过短,接管期间无法有效对灾备系统承载的重要业务进行验证;重要信息系统发生较大调整后,未及时开展业务连续性演练。

 

目前许多中小行商业银行灾备切换的形式采用模拟演练的方式尚未做到真实切换演练。具体来说,采用中断复制关系,启动灾备环境系统验证数据是否可用,应用系统能否模拟业务操作的方式来验证灾备体系的可用性,有些行更进一步,通过选择部分网点接入灾备中心系统环境中,业务条线相关人员进行操作,模拟真实交易,进行验证,验证结束后,丢掉模拟交易数据,恢复主备复制关系。但这些模拟演练较真实接管业务的演练目标仍有差距,无法验证灾备体系真实接管业务的性能压力、高可用要求,也无法验证灾备中心真实交易发生后进行生产回切,保留真实交易数据的过程。

 

按照本次整改通知的要求,业务连续性演练问题应于2021年底前完成整改,并确保在此期间各重要信息系统至少完成一次真实接管业务的灾备切换演练,并且真实业务应在灾备中心运行一段时间,建议在灾备中心在验证24小时,且完成跑批后进行回切。许多中小银行距离如此目标还有较大的差距,主要的困难体现在:

 

(1)灾备中心资源配备不足,不具备接管真实交易的支撑能力。

 

(2)进行灾备切换演练的技术能力不足或操作人员不足,切换效率较低,无法同时完成多套重要信息系统的切换,RTO指标停留在纸面。

 

为达到演练目标,建议开展以下重点工作:

 

  • 梳理灾备中心的系统资源,是否支撑正式切换演练,开展灾备体系优化建设,补齐系统资源短板;

  • 制定详细的灾难恢复计划DRP;

  • 部署灾备切换管理工具,将灾备切换的组织、流程、操作进行标准化、流程化,自动化提高灾备切换效率和实现灾备切换可视化。

 

Q8:商业银行如何应对本次专项治理工作?

 

为了落实治理的各项工作内容,切实加强中小银行业务连续性建设,提高抵御重大风险的能力,建议中小银行根据本行(社)业务连续性建设的实际状况,通过如下建设路径,满足合规的要求:

 

  • 业务连续性管理咨询 (风险管理部、信息科技及各业务部门)

  • 信息系统本地高可用评估 (信息科技部)

  • 灾备体系恢复能力评估 (信息科技部)

  • 灾备体系建设规划 (信息科技部)

  • 灾备体系优化建设 (信息科技部)

  • 灾备系统运行维护及技术支持(信息科技部)

  • 业务连续性管理平台&灾备体系管理平台建设  (风险管理部&信息科技部)

  • 业务连续性灾备切换演练(真实接管)(风险管理部、信息科技及各业务部门)

 


 

时代给予传统金融业的危机感从未停止过,不论是互联网的冲击,还是疫情引发的新一次挑战。为此Gdevops全球敏捷运维峰会北京站精选出近10家银行的金融科技探索,分享其在中台建设、数据库迁移、运维转型上的实战经验,助力Fintech战略落地。部分主题:
 
  • 中邮消费金融:《建设敏捷型消费金融中台及云原生下的DevOps实践》

  • 建信金科:《银行数字化转型战略分析、关键技术及未来架构趋势》

  • 平安银行:《平安银行“传统+互联网”混合CMDB及运营中台实践》

  • 中国银行:《银行日志监控系统优化手记》

  • 工商银行:《ICBC的MySQL转型探索之路》

  • 农业银行:《中国农业银行信贷中台及数据中台建设实践》

  • 民生银行:《民生银行在SQL审核方面的探索和实践》

  • 蚂蚁金服:《OceanBase分布式数据库在西安银行的落地和实践》

 
2020年,金融科技会走向何方?让我们5月29日北京一起复盘前十年,定义新十年!

《商业银行业务连续性专项治理工作自查表》链接:https://pan.baidu.com/share/init?surl=JuQ8p99lNPeYePvKxWwjZg   提取码:dj1d
最新评论
访客 2020年04月05日

牛逼学到了

访客 2020年04月01日

阅读原文

访客 2020年03月26日

你好,可以请教一下多环境隔离的问题吗? 谢谢

访客 2020年03月10日

写的挺好的。 小工具能分享下吗

访客 2020年02月27日

文章写的太棒了,很细致,赞一个!

活动预告