保障系统稳定性是现代软件开发中最具挑战性的问题之一,也是确保业务连续运行的重要因素。云服务、大型互联网平台、新型网络和关键业务的稳定安全运行,是我国信息通信行业高质量发展的基石,也是我国数字经济快速发展的必要条件。因此,针对系统稳定安全运行的技术研究和实践推广具有重要意义。
中国信通院自2020年起开展系统稳定性保障技术研究,2021年牵头成立混沌工程实验室,目前吸引成员超过百家。以混沌工程实验室为依托,以保障企业系统稳定性、提升服务连续性、促进业务高质量发展为目标,中国信通院构建了针对稳定性建设者、稳定性赋能者以及云服务稳定运行能力的稳定性保障标准体系(以下简称“稳保体系”),为我国系统稳定性保障能力建设起到了重要推动作用。迄今已有50余款产品参与“稳保体系”能力评估,相关工作得到业内积极反馈和广泛认可。
面对IT系统复杂度提升、用户对系统稳定安全运行需求增长的现状,为满足行业发展及用户需求,中国信通院推出“稳保体系”评估体系,面向全国开展云系统稳定运行保障及建设能力评测,推动云系统稳定可靠机制落地,目前已形成了包括平台能力评估、建设成效评估及云服务稳定安全运行能力评估三大模块的评估体系。
评估项目详情:
图1 稳保体系总体视图
评估价值:
面向建设者:稳保建设成效评估
面向建设者的稳定性领航能力聚焦建设成效,包括三个建设成熟度,涉及混沌工程、应用多活及变更管控建设水平,同时还推出两个稳定性保障/建设模型,涉及分布式系统稳定性成熟度(原分布式系统稳定性度量模型升级)及“一云多芯”信创云平台稳定性成熟度模型,其中“一云多芯”信创云平台稳定性成熟度及变更管控成熟度模型为首批评估。
该评估体系提供了梯度建设成效模型,指导企业逐步推进建设稳定性能力建设,技管结合,全方位度量/指导稳定性建设成效、针对性提升稳定性建设短板。通过评估且评级为最高级的企业/产品将进入中国信通院“稳定性领航者”列表。
混沌工程平台是实施混沌工程中故障演练的主要工具,组织要建立完整混沌工程能力,需要综合软件开发的技术水平以及混沌工程实验的管理能力。
混沌工程成熟度评估以通信行业标准《混沌工程成熟度模型》为评估依据,预期为需求方提供一个阶梯式的建设框架,指明一个组织在混沌工程实践方面需要管理哪些工作、这些工作之间的关系、先后次序,推动该组织的混沌工程能力逐步走向成熟。
图2 混沌工程成熟度能力架构图
评估对象
混沌工程成熟度针对组织或者企业为评估对象, CEMM的评估结果分为三个维度:“工程熟练度”、“应用成效度”和“组织建设度”。
评估等级
混沌工程成熟度模型(CEMM)将企业混沌工程成熟度水平分为5个等级:初始级、基础级、全面级、优秀级、卓越级,便于企业自评定位以及设置合理的提升目标。
如何有效、全面地度量系统稳定性、指导稳定性保障能力建设,有目的性地检查、提升整个系统各个组件或环节的稳定性是众多从业者共同面对的难题。
分布式系统稳定性成熟度模型以通信行业标准《分布式系统稳定性度量模型》(升级中)为评估依据,覆盖稳定指标、故障预防、故障感知与分析、预案能力、故障改进、安全管理及流程机制7大能力域,共34个功能模块,包含125个能力项,是目前业界最权威、完整的稳定性能力成熟度模型。
图3 分布式系统稳定性成熟度模型
评估对象
分布式系统稳定性评估以系统或产品为申报对象。
评估等级
根据评估结果将参评系统的稳定性分为5个等级:基础级、增强级、全面级、先进级、卓越级(目前开放3个等级)。
《变更管控能力成熟度模型》覆盖变更机制建设成熟度、变更全生命周期管理、平台基础能力共三大能力域类型,包括32个能力项。其中变更机制建设成熟度是对企业变更制度、流程、规范管理的考查,变更全生命周期管理是对变更执行前、执行中、执行后的全生命周期管理能力的考查,变更平台基础能力是对平台的权限、安全、高可用等基础能力要求的考查。
图4 变更管控能力成熟度模型能力框架图
标准范围:
《变更管控能力成熟度模型》覆盖变更机制成熟度、变更全生命周期管理、平台基础能力3个能力域类型。
评估等级:
本标准对变更管控能力成熟度进行分级,首批分为基础级、推广级和领航级。(可自选某一能力域类型或子能力域进行评级,也可整体评级)
在应用系统加速上云的背景下,传统的灾备架构已很难满足业务快速恢复的需要,成功应用、落地应用多活技术构建数字免疫系统成为组织、企业内部的高优先级工作。
《应用多活成熟度模型》关注应用多活项目的执行质及执行效果,指导企业从应用多活架构可靠度、应用成效度及组织建设度三方面按照预定目标和条件成功地、可靠地实施项目落地。
图5 应用多活成熟度模型
评估对象
应用多活成熟度针对组织或者企业为评估对象,评估结果分为三个维度:“架构可靠度”、“应用成效度”和“组织建设度”。
评估等级
应用多活成熟度模型将企业混沌工程成熟度水平分为5个等级:初始级、基础级、全面级、优秀级、卓越级,便于企业自评定位以及设置合理的提升目标。
2023 年 2 月,国务院印发《数字中国建设整体布局规划》,规划指出要强化数字中国关键能力,构建自立自强的数字技术创新体系。在此背景下,国内信创需求将持续释放,IT产业全链路国产化替代已成为大势所趋。
《一云多芯平台稳定性成熟度模型》关注信创平台的建设部署情况,指导企业从流程机制管理、度量维度及基础建设三方面按照预定目标和条件成功地、可靠地实施信创项目落地。
评估对象
以信创平台产品为评估对象。针对信创领域关注的实际落地情况、性能、兼容性、稳定性等方面,要充分体现技术的先进性、实用性、通用性,评估结果分为三个维度:“流程机制管理”、“度量维度”和“基础建设”。
评估等级
一云多芯平台稳定性成熟度模型将企业信创平台成熟度水平分为3个等级:初始级、基础级、优秀级,便于企业自评定位以及设置合理的提升目标。
参考了传统行业安全工程实践经验,并结合云上业务安全生产特点,进行体系化方法论研究和工程化能力实践。
安全工程能力作为业务系统运维过程中保障稳定性、业务连续性的整体解决方案,强调依赖以组织、人员、制度、规范、流程、应急等方面做顶层整体设计,以主动故障预防为主,并涵盖故障前中后风险控制的工程化手段,有效减少因人员误操作、程序缺陷、底层硬件损坏、环境变化(如流量过大) 等造成的信息系统故障或不可用影响。
评估对象
云服务经营者设计、研发安全工程类产品。
评估等级
基于云计算的数字化业务通用安全工程要求为通过类标准。
面向赋能者:稳保平台能力评估
面向赋能者的稳定性守护能力涉及软件全生命周期稳定性保障所涉及的技术点,涉及混沌工程、可观测性、全链路压测、容量管理、根因分析、应用多活。其中,容量管理平台能力及根因分析能力为首批评估。
该体系规范了稳定性建设工具能力要求,帮助企业从独立产品能力提升为可靠综合的稳定性建设矩阵,真正理解用户的稳定性建设需求,提升企业产品能力。通过评估且评级为最高级的企业/产品将进入中国信通院“稳定性守护者”列表。
随着云计算技术的发展,软件架构向分布式化、解耦合和工程化等方向演进,软件系统结构日趋复杂,大大提高了系统稳定性故障的排查难度。根因分析技术可以利用系统运行观测数据,辅助分析故障来源与成因,帮助运维人员实现更加高效的系统故障排查与解决。
本评估以《根因分析平台技术能力要求》为评估依据,面向根因分析工具及平台,提出根因分析能力的评估标准模型,提升故障解决效率。
图6 根因分析平台能力框架图
评估对象
面向根因分析工具和平台;
评估等级
根因分析平台评估将参评系统的可观测性能力分为3个等级:基础级、增强级和先进级。首批评估进行中!
混沌工程是一种新型的测试理念与工具框架,通过主动引入故障的方式来验证分布式系统的稳定性,《混沌工程平台能力要求》是可信云针对混沌工程平台而制定的标准。
混沌工程平台能力评估以通信行业标准《混沌工程平台能力要求》为评估依据,规范了混沌工程平台应具备的功能及服务能力,覆盖基础设施、平台功能、平台性能及支撑能力,平台功能包括故障场景、介质管理、场景库管理、演练计划、实验流程、实验防护、实验观测及实验报告,近100个评估项。
混沌工程平台能力划分为基础级、增强级和先进级,技术复杂度由低到高,梯度指导厂商能力建设,有效证明并提升参评服务的混沌工程技术能力。
图7 混沌工程平台能力架构图
评估对象
以混沌工程平台产品为申报对象;
评估等级
混沌工程平台能力评估将参评系统分为3个等级:基础级、增强级和先进级。
近些年来,面对日趋复杂的软件系统,即使是已经全球领先的技术公司仍然无法避免大规模宕机事故的发生,企业急需更多的手段和工具去保障软件系统的稳定性。而可观测性,则是保障软件系统稳定性的基石:如果软件系统内部情况都不可观测,则更无从谈起故障分析和系统改进等稳定性保障手段。
可观测性平台能力评估以通信行业标准《可观测性平台能力要求》为评估依据,,面向可观测性工具和平台,提供全面的可观测性平台能力参考规范,助力可观测性产品为更多企业软件系统的稳定性保驾护航。
图8 可观测性平台能力
评估对象
面向可观测性工具和平台;
评估等级
可观测性平台评估将参评系统的可观测性能力分为3个等级:基础级、增强级和先进级。
随着软件系统规模得以更进一步扩张,其承载的数据体量与日俱增,逐渐成为威胁系统稳定性的主要因素之一。在此背景下,如何才能准确地把握系统的数据承载量,提前发现服务链路中的性能瓶颈,从而规避数据过载导致的系统崩溃,成为了企业亟待解决的问题。
本评估以《全链路压测平台技术能力要求》为评估依据,面向全链路压测服务供应方,提出全链路压测技术能力的评估标准模型,协助扩大全链路压测服务在企业中的影响力和接受度,保障海量数据场景下的云系统稳定性。
图9 全链路压测平台能力
评估对象
面向全链路压测服务供应方
评估等级
全链路压测平台能力评估将参评平台的能力分为3个等级:基础级、增强级和先进级。
应用多活是广义“容灾”方案中的高级形态。区别于传统的机房级容灾方案,应用多活方案通过将业务的管理层、流量层、应用层、数据层、基础设施层等高可用方案互相结合与联动,真正实现业务侧的多活高可用架构。
应用多活平台能力评估以通信行业标准《应用多活平台能力要求》为评估依据,基于当前分布式系统稳定性的发展现状与痛点,助力企业增强核心业务的连续性及抗风险能力,保证核心业务的稳定、持续运转。
图10 应用多活平台能力要求
评估对象
面向应用多活服务供应方
评估等级
应用多活平台能力评估将参评平台的能力分为3个等级:基础级、增强级和先进级。
提出通用管理、监控告警、事件处理、应急管理、评价体系五大能力域,以保障业务安全稳定为中心,通过集成产品所需能力域,以及深度融合数字化先进技术,实现多场景业务连续性、业务运行效能的提升。
图11 数字化安全生产平台能力要求框图
评估对象
数字化安全生产类平台
评估等级
数字化安全生产平台能力评估将参评平台的能力分为3个等级:基础级、增强级和先进级。
面向云服务稳定运行场景规定了保障云服务持续稳定运行的云服务事故应急响应要求,制定应急预案并演练来模拟云服务运行事故,检验企业在应急场景下的监测预警、评估分析、应急响应、故障恢复、信息通报能力,从制度、组织、流程、实践等方面保障云服务应急响应水平,进一步提升业务连续性。
图12 应急响应规范框图
评估对象
云服务提供商的应急响应规范
评估等级
云服务稳定运行要求:应急响应规范为通过类标准。
《云服务运行故障分类分级要求》作为《云服务稳定运行要求:应急响应规范》的配套标准,主要强调在《云服务运行故障分类分级要求》中从通用管理、云基础设施、云产品、云上业务等维度预先规划好事件的不同等级,以便在故障发生后根据《云服务运行故障分类分级要求》判断事件级别并在《云服务稳定运行要求:应急响应规范》指导下启动对应级别的应急响应,采取恰当的应急措施。
图13 云服务运行故障分类分级要求框架图
评估对象
云服务提供商的分类分级指南
评估等级
云服务运行故障分类分级要求为通过类标准。
《云服务稳定运行要求:应急管理平台》作为与《云服务稳定运行要求:应急响应规范》和《云服务运行故障分类分级要求》配套的工具平台标准,面向云服务稳定运行场景提供数字化业务连续性管理,强调使用一套应急管理平台,提出应急协同、监测与预警、应急响应三大能力域,实现《云服务稳定运行要求:应急响应规范》和《云服务运行故障分类分级要求》中监测预警、评估分析、应急响应、故障恢复、信息通报等能力的落地。
图14 应急管理平台要求框架图
评估对象
云服务提供商的应急管理平台
评估等级
云服务稳定运行要求:应急管理平台为通过类标准。
技术底座:云服务稳定运行能力评估
云技术底座是上层业务应用的基石,云服务稳定运行能力评估构建了完整的后端安全稳定运行保障体系,包含云主机、云存储、网络服务、云数据库、容器集群、消息队列等多项稳定性评估方案。其中,云主机、云存储、网络服务、云数据库、容器集群稳定性评估为首批评估。
该体系基于2022年由工信部信管局发起的“稳保专项行动”,提供了底层云服务稳定性评估和度量方案,目标是增强云服务的可用性,促进上层业务的稳定性和业务连续性,提升应用的风险可控能力。通过评估且评级为最高级的企业/产品将进入中国信通院“稳定性守护者”列表。
图15 云服务稳定运行能力评估
测评步骤
报名合同签订
企业参考相关新闻、评测目录,确定评测意向。双方确认商务合同。
技术对接
合同确认后,我们会安排测试人员对接,向参评企业提供详细测试方法,并安排答疑和预约排期。
正式评测
在正式排期内进行评测,不同评测周期各异,多数须1个月内完成。
专家评审
评测结束后,将召开专家评审组会议,评审专家组成员由行业技术专家组成,评审组将对完成测试的参评企业及其产品报告进行评审,通过专家组评审方可获得证书。
证书颁发
系统稳定性保障体系2023上半年评估证书将于2023年6月系统稳定性大会颁发。
时间计划
评估评测报名:2023年1月-5月底
正式评估评测:2023年2月-5月底
专家评审:2023年5月
证书颁发:2023年6月 系统稳定性大会
参与评估,请联系:
王海清(业务)
邮箱:wanghaiqing@caict.ac.cn
电话:18813097160
薛 然(商务)
邮箱:xueran@kexinyun.org
电话:010-62308705
本文内容源自:云计算开源产业联盟
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721