稳保行动丨中国信通院系统稳定性保障体系评估23年第二期报名通道开启

中国信通院 2023-09-08 10:33:46
保障系统稳定性是现代软件开发中最具挑战性的问题之一,也是确保业务连续运行的重要因素。云服务、大型互联网平台、新型网络和关键业务的稳定安全运行,是我国信息通信行业高质量发展的基石,也是我国数字经济快速发展的必要条件。因此,针对系统稳定安全运行的技术研究和实践推广具有重要意义。

 

中国信通院自2020年起开始研究稳定性保障工作,建设了“系统稳定性保障系列标准”,并基于此标准体系支持了工信部稳定运行政策文件的制定,全程全面支撑工信部在全国范围内推行的“云服务稳定安全运行应急演练专项行动”。作为全国唯一的系统稳定性保障领域的权威评估组织,可信云基于“稳保”系列标准构建评估体系,旨在响应国家政策要求及行业用户需求,助力推动系统稳定性保障水平稳步提升。本评估体系主要围绕稳定性建设成效、技术平台能力和稳定性测试三个模块构建,评估对象包含云服务厂商及企业用户,可以面向产品维度或项目维度开展测评,协助客户评估系统风险、强化风险管理、促进稳定性合规。

 

评估项目详情

图片

图1 稳保体系总体视图

 

评估价值

图片

图2 评估价值

 

稳保建设成效评估

面向建设者的稳定性领航能力聚焦建设成效,该评估体系提供了梯度建设成效模型,指导企业逐步推进建设稳定性能力建设,技管结合,全方位度量/指导稳定性建设成效、针对性提升稳定性建设短板。通过评估且评级为最高级的企业/产品将进入中国信通院“稳定性领航者”列表,领航者成员请参考文末附录1。

 

1、可观测性建设成熟度评估【首批】

 

可观测性是IT系统中至关重要的方面,可以帮助组织更好地理解系统运行的状态和行为,从而更好地预测和处理潜在的问题。中国信通院早在21年于TC608组织开展《可观测性平台能力要求》标准撰写,并成功立项CCSA行业标准,极大地促进了可观测性技术在业内的认知和推广。为了进一步帮助建设方规划组织内部的可观测性建设路径,中国信通院计划从用户视角建设可观测性成熟度模型,旨在为组织提供一种有效的评估和指导方式,帮助企业和组织在内部建设可观测性能力,以提高其IT系统的稳定安全运行水平。

 

图片

图3 可观测性建设成熟度框架图

 

评估对象

可观测性建设成熟度针对系统或者产品为评估对象,评估结果分为两个维度:“观测能力”和“应用场景”。

 

评估等级

可观测性建设成熟度将可观测性建设水平分为4个等级:感知级、探索级、洞察级、卓越级,便于企业自评定位以及设置合理的提升目标。

 

2、证券基金期货行业重要系统稳定性成熟度模型【首批】

 

以证券为代表的证券期货基金行业是整个社会经济活动的重要组成部分,其服务的稳定运行是社会经济活动平稳开展的重要基础,也是我国大力发展数字经济的必要条件。

 

中国证券业协会于2023年6月3日发布的《证券公司网络和信息安全三年提升计划(2023-2025)》,提出“提升信息系统故障发现能力、提高事件预警及处置效率…加强网络安全态势感知和通报预警”。由此观之,政策关注并鼓励金融领域的研发运维团队培养良好的稳定系统建设思路,在工程设计与实现上规避风险,持续交付高质量软件。

 

《证券基金期货行业重要系统稳定性成熟度模型》涵盖组织管理成熟度、稳定性技术成熟度及机制成熟度,全方位覆盖证券基金期货行业系统稳定性保障能力建设的组织、人员、技术、机制的需求。

 

图片

图4  证券基金期货行业重要系统稳定性成熟度模型框架图

 

评估对象:

证券基金期货机构、能力供应商

 

评估等级:

本标准对证券基金期货行业重要系统稳定性成熟度进行分级,首批分为初始级、改善级、规范级、优秀级、卓越级。首批评估进行中!

 

3、混沌工程成熟度评估

 

混沌工程平台是实施混沌工程中故障演练的主要工具,组织要建立完整混沌工程能力,需要综合软件开发的技术水平以及混沌工程实验的管理能力。

 

混沌工程成熟度评估以通信行业标准《混沌工程成熟度模型》为评估依据,预期为需求方提供一个阶梯式的建设框架,指明一个组织在混沌工程实践方面需要管理哪些工作、这些工作之间的关系、先后次序,推动该组织的混沌工程能力逐步走向成熟。

 

图片

图5 混沌工程成熟度能力架构图

 

评估对象

混沌工程成熟度针对组织或者企业为评估对象, CEMM的评估结果分为三个维度:“工程熟练度”、“应用成效度”和“组织建设度”。

 

评估等级

混沌工程成熟度模型(CEMM)将企业混沌工程成熟度水平分为5个等级:初始级、基础级、全面级、优秀级、卓越级,便于企业自评定位以及设置合理的提升目标。

 

4、分布式系统稳定性成熟度模型

 

如何有效、全面地度量系统稳定性、指导稳定性保障能力建设,有目的性地检查、提升整个系统各个组件或环节的稳定性是众多从业者共同面对的难题。

 

模型以标准《分布式系统稳定性成熟度模型》为评估依据,细致划分了业务层、平台层、基础设施层多维度稳定性建设重点内容,细致指导不同维度的建设方开展稳定性建设方向校准和能力自证。

 

图片

图6 分布式系统稳定性成熟度模型

 

评估对象

分布式系统稳定性评估以系统或产品为申报对象。

 

评估等级

根据评估结果将参评系统的稳定性分为5个等级:基础级、增强级、全面级、先进级、卓越级(目前开放3个等级)。

 

5、变更管控成熟度模型

 

《变更管控能力成熟度模型》覆盖变更机制建设成熟度、变更全生命周期管理、平台基础能力共三大能力域类型,包括32个能力项。其中变更机制建设成熟度是对企业变更制度、流程、规范管理的考查,变更全生命周期管理是对变更执行前、执行中、执行后的全生命周期管理能力的考查,变更平台基础能力是对平台的权限、安全、高可用等基础能力要求的考查。

 

图片

图7 变更管控能力成熟度模型能力框架图

 

标准范围:

《变更管控能力成熟度模型》覆盖变更机制成熟度、变更全生命周期管理、平台基础能力3个能力域类型。

 

评估等级:

本标准对变更管控能力成熟度进行分级,首批分为基础级、推广级和领航级。(可自选某一能力域类型或子能力域进行评级,也可整体评级)

 

6、应用多活成熟度模型

 

在应用系统加速上云的背景下,传统的灾备架构已很难满足业务快速恢复的需要,成功应用、落地应用多活技术构建数字免疫系统成为组织、企业内部的高优先级工作。

 

《应用多活成熟度模型》关注应用多活项目的执行质及执行效果,指导企业从应用多活架构可靠度、应用成效度及组织建设度三方面按照预定目标和条件成功地、可靠地实施项目落地。

 

图片

图8 应用多活成熟度模型

 

评估对象

应用多活成熟度针对组织或者企业为评估对象,评估结果分为三个维度:“架构可靠度”、“应用成效度”和“组织建设度”。

 

评估等级

应用多活成熟度模型将企业混沌工程成熟度水平分为5个等级:初始级、基础级、全面级、优秀级、卓越级,便于企业自评定位以及设置合理的提升目标。

 

7、一云多芯稳定性测试

 

2023 年 2 月,国务院印发《数字中国建设整体布局规划》,规划指出要强化数字中国关键能力,构建自立自强的数字技术创新体系。在此背景下,一云多芯需求将持续释放,IT产业全链路国产化替代已成为大势所趋。

 

《一云多芯稳定性测试》关注一云多芯架构的建设部署情况,指导企业从流程机制管理、度量维度及基础建设三方面按照预定目标和条件成功地、可靠地实施信创项目落地。

 

评估对象

以一云多芯架构产品为评估对象。针对一云多芯领域关注的实际落地情况、性能、兼容性、稳定性等方面,要充分体现技术的先进性、实用性、通用性,评估结果分为三个维度:“流程机制管理”、“度量维度”和“基础建设”。

 

评估等级

一云多芯稳定性评估将企业多芯异构产品成熟度水平分为3个等级:基础级、增强级、先进级,便于企业自评定位以及设置合理的提升目标。

 

8、金融业务连续性成熟度模型

 

为响应金融机构监管下的业务连续性实际诉求,提升体系化建设能力,结合前期积累的稳定性保障经验,进一步提升金融业务稳定安全运行水平,中国信通院于2023年3月牵头开展《金融业务连续性能力成熟度模型》标准研讨工作,中国工商银行、中国农业银行、四川农信、乐山市商业银行、成都银行、中国银行、招商银行、北京银行、建信金科、贵州银行、平安银行、青海银行、九江银行、大连银行、顺德农商银行、中泰证券、太保科技等50余家金融机构、60余位企业专家历经三个余月最终标准定稿,并依据此标准开展了评估工作。

 

图片

图9 《金融业务连续性成熟度模型》框架图

 

参评对象:

金融机构、厂商

 

评估等级:

基本分级单元为功能项,每项都有1级、2级、3级、4级、5级的能力要求项

 

稳保平台能力评估

面向赋能者的稳定性守护能力涉及软件全生命周期稳定性保障所涉及的技术点,规范了稳定性建设工具能力要求,帮助企业从独立产品能力提升为可靠综合的稳定性建设矩阵,真正理解用户的稳定性建设需求,提升企业产品能力。通过评估且评级为最高级的企业/产品将进入中国信通院“稳定性守护者”列表,守护者成员请参考文末附录2。

 

1、根因分析平台能力评估

 

随着云计算技术的发展,软件架构向分布式化、解耦合和工程化等方向演进,软件系统结构日趋复杂,大大提高了系统稳定性故障的排查难度。根因分析技术可以利用系统运行观测数据,辅助分析故障来源与成因,帮助运维人员实现更加高效的系统故障排查与解决。

 

本评估以《根因分析平台技术能力要求》为评估依据,面向根因分析工具及平台,提出根因分析能力的评估标准模型,提升故障解决效率。

 

图片

图10 根因分析平台能力框架图

 

评估对象

面向根因分析工具平台;

 

评估等级

根因分析平台评估将参评系统的可观测性能力分为3个等级:基础级、增强级和先进级。

 

2、混沌工程平台能力评估

 

混沌工程是一种新型的测试理念与工具框架,通过主动引入故障的方式来验证分布式系统的稳定性,《混沌工程平台能力要求》是可信云针对混沌工程平台而制定的标准。

 

混沌工程平台能力评估以通信行业标准《混沌工程平台能力要求》为评估依据,规范了混沌工程平台应具备的功能及服务能力,覆盖基础设施、平台功能、平台性能及支撑能力,平台功能包括故障场景、介质管理、场景库管理、演练计划、实验流程、实验防护、实验观测及实验报告,近100个评估项。

 

混沌工程平台能力划分为基础级、增强级和先进级,技术复杂度由低到高,梯度指导厂商能力建设,有效证明并提升参评服务的混沌工程技术能力。

 

图片

图11 混沌工程平台能力架构图

 

评估对象

以混沌工程平台产品为申报对象;

 

评估等级

混沌工程平台能力评估将参评系统分为3个等级:基础级、增强级和先进级。

 

3、可观测性平台能力评估

 

近些年来,面对日趋复杂的软件系统,即使是已经全球领先的技术公司仍然无法避免大规模宕机事故的发生,企业急需更多的手段和工具去保障软件系统的稳定性。而可观测性,则是保障软件系统稳定性的基石:如果软件系统内部情况都不可观测,则更无从谈起故障分析和系统改进等稳定性保障手段。

 

可观测性平台能力评估以通信行业标准《可观测性平台能力要求》为评估依据,,面向可观测性工具平台,提供全面的可观测性平台能力参考规范,助力可观测性产品为更多企业软件系统的稳定性保驾护航。

 

图片

图12 可观测性平台能力

 

评估对象

面向可观测性工具平台;

 

评估等级

可观测性平台评估将参评系统的可观测性能力分为3个等级:基础级、增强级和先进级。

 

4、全链路压测平台能力评估

 

随着软件系统规模得以更进一步扩张,其承载的数据体量与日俱增,逐渐成为威胁系统稳定性的主要因素之一。在此背景下,如何才能准确地把握系统的数据承载量,提前发现服务链路中的性能瓶颈,从而规避数据过载导致的系统崩溃,成为了企业亟待解决的问题。

 

本评估以《全链路压测平台技术能力要求》为评估依据,面向全链路压测服务供应方,提出全链路压测技术能力的评估标准模型,协助扩大全链路压测服务在企业中的影响力和接受度,保障海量数据场景下的云系统稳定性。

 

图片

图13 全链路压测平台能力

 

评估对象

面向全链路压测服务供应方

 

评估等级

全链路压测平台能力评估将参评平台的能力分为3个等级:基础级、增强级和先进级。

 

5、应用多活平台能力评估

 

应用多活是广义“容灾”方案中的高级形态。区别于传统的机房级容灾方案,应用多活方案通过将业务的管理层、流量层、应用层、数据层、基础设施层等高可用方案互相结合与联动,真正实现业务侧的多活高可用架构。

 

应用多活平台能力评估以通信行业标准《应用多活平台能力要求》为评估依据,基于当前分布式系统稳定性的发展现状与痛点,助力企业增强核心业务的连续性及抗风险能力,保证核心业务的稳定、持续运转。

 

图片

图14 应用多活平台能力要求

 

评估对象

面向应用多活服务供应方

 

评估等级

应用多活平台能力评估将参评平台的能力分为3个等级:基础级、增强级和先进级。

 

6、模糊测试技术能力评估

 

模糊测试利用自动、半自动的方法,发送大量随机数据到被测试系统,通过监控系统运行过程中的异常,挖掘出包括缓冲区溢出、整数溢出、格式串漏洞、资源管理、内存泄漏等在内的软件质量问题。模糊测试利用随机性的测试数据带来软件确定性的质量,有效阻止质量缺陷成为限制基础软件进一步发展的阿喀琉斯之踵。

 

《模糊测试技术分级能力要求》标准归属于《云上软件测试能力成熟度模型》行业标准体系,标准规范了黑盒、灰盒模糊测试的平台能力及引擎能力,共包含了4个能力域、28个能力项、246个能力指标,提供了模糊测试平台能力建设的全方针指导。

 

图片

图15 模糊测试技术能力要求

 

评估对象

面向模糊测试服务供应方及应用方

 

评估等级

模糊测试技术能力评估将参评平台的能力分为3个等级:基础级、增强级和先进级。

 

7、API全生命周期管理能力评估

 

API全生命周期管理是确保系统稳定性的关键策略,它涵盖了从API设计、开发、部署到监控、升级和维护的全过程。通过规范设计、保障兼容性、监控性能、排除故障、管理版本、确保安全等措施,API全生命周期管理能够提升系统的稳定性,减少风险,同时优化性能,确保API持续有效地支持业务需求。

 

图片

图16 API全生命周期管理能力要求

 

评估对象

面向API服务服务供应方及使用方

 

云服务稳定运行能力评估

云技术底座是上层业务应用的基石,云服务稳定运行能力评估构建了完整的后端安全稳定运行保障体系,包含云主机、云存储、网络服务、云数据库、容器集群、消息队列等多项稳定性评估方案。

 

该体系基于2022年由工信部信管局发起的“稳保专项行动”,提供了底层云服务稳定性评估和度量方案,目标是增强云服务的可用性促进上层业务的稳定性和业务连续性,提升应用的风险可控能力。通过评估且评级为最高级的企业/产品将进入中国信通院“稳定性守护者”列表,守护者成员请参考文末附录2。

 

图片

图17 云服务稳定运行能力评估

测评步骤

1

报名合同签订

企业参考相关新闻、评测目录,确定评测意向。双方确认商务合同。

2

技术对接

合同确认后,我们会安排测试人员对接,向参评企业提供详细测试方法,并安排答疑和预约排期。

3

正式评测

在正式排期内进行评测,不同评测周期各异,多数须1个月内完成。

4

专家评审

评测结束后,将召开专家评审组会议,评审专家组成员由行业技术专家组成,评审组将对完成测试的参评企业及其产品报告进行评审,通过专家组评审方可获得证书。

5

证书颁发

系统稳定性保障体系2023下半年评估证书将于2023年11月系统稳定性大会颁发。

参与评估,请联系:

王海清(业务):

wanghaiqing@caict.ac.cn 18813097160

 

薛 然(商务):

xueran@kexinyun.org 010-62308705

最新评论
访客 2023年08月20日

230721

访客 2023年08月16日

1、导入Mongo Monitor监控工具表结构(mongo_monitor…

访客 2023年08月04日

上面提到: 在问题描述的架构图中我们可以看到,Click…

访客 2023年07月19日

PMM不香吗?

访客 2023年06月20日

如今看都很棒

活动预告