喜讯丨广东移动业务支撑及管理支撑IT系统顺利通过了中国信息通信研究院的系统稳定性保障能力评估(STAR-A)

dbaplus社群 2022-11-02 09:44:57
随着企业数智化转型的不断深入,应用系统的稳定性已与企业的营业收益密切相关,中国移动通信集团广东有限公司(以下简称广东移动)为提高应用系统的稳定性,打造出一套在数据化的基础上全面升级的智能化支撑IT系统,加速技术架构向智能化转变,通过智能技术的应用能够使得应用系统进行自感知、自分析、自决策等等智能活动,极大程度上降低了应用系统遭遇风险的可能性以及提高了应用系统的稳定性,有效促进企业营收增长。

 

一、广东移动稳定性测试情况介绍

 

2022年10月20日,广东移动业务支撑及管理支撑IT系统顺利通过了中国信息通信研究院的系统稳定性保障能力评估(STAR-A)。这项评估包括了对设计与开发、测试与评估、发布与变更、监控与应急、基础设施保障和管理保障6个大项共124个细分项在系统稳定性保障方面的能力要求,能够全面地评估广东移动业务支撑及管理支撑IT系统的稳定性保障体系的建设完整程度,并盘点围绕系统的稳定性保障所进行的各项工作。

 

图片
△系统稳定性保障能力评估小组成员

 

二、参评系统情况介绍

 

此次参与评估的广东移动业务支撑及管理支撑IT系统,以支撑上层业务、服务的高质量发展和运行为准则,以SRE运维模式作为指导下建设的一套提供可观测性、自动化、智能化等能力的支撑系统。广东移动业务支撑及管理支撑IT系统上线至今,已接入广东移动100+个应用系统,如BOSS生产系统、CRM系统、网格化运营系统、Portal系统、投资一体化和采购供应链系统等,日均使用人数超过2万。广东移动业务支撑及管理支撑IT系统采用静态和动态的双重认证,根据不同职能分配不同角色的权限,对用户操作过程进行实时记录,为应用系统提供了强有力的安全保障。

 

广东移动业务支撑及管理支撑IT系统设以完备的指标采集、海量的数据存储和分析为基础,搭载自动化运维、智能化运维、敏捷支撑的能力,从感知、分析、决策、执行、更新的维度,不断为应用系统提供业务运营支撑、业务调用链监控、业务流量预警、系统自动巡检、应用故障自愈、版本的灰度发布和蓝绿发布等运营及维护的场景,为应用系统提供7*24小时不间断的服务机制。广东移动业务支撑及管理支撑IT系统面向多个不同系统、不同部门、不同职能分别提供基础资源管理、应用服务管理、业务数据管理、系统小管家、厂商评价等不同的支撑能力,有效支撑应用系统在各种复杂场景中的稳定使用,在企业营运中体现出重要的管理价值和工作价值,对企业营收提供了牢靠的保障。

 

图片

 

 

系统感知能力

 

调用链日志打点输出采用核心和插件分离的解构架构,核心封装了公共的调用链核心逻辑,通过插件快速适配各类异构化应用和服务工程,对业务低侵入性(只要当前工程引入对应的插件MAVEN进行JAR引用),可快速低成本适配推广各类异构化系统(提供各类日志适配插件)。实现业务、应用、系统资源全链路可视化链路跟踪。

 

图片

 

 

业务流量预警

 

梳理系统用户的帐号归属类别、安全等级等基础信息,建立用户群,挖掘用户群的帐号使用偏好,按周期更新用户使用的系统名称、功能模块等信息,基于用户群的使用偏好记录,引入协同过滤推荐算法,利用用户群的历史行为预测系统与各模块未来的业务流量,当预测的业务流量超过阈值时启动报警,同时基于预测的业务流量提前输出需要进行运维保障的模块清单,并配置自动脚本对其进行监控和流量控制,实现防御式业务流量预警以及主动式运维场景保障,避免发生流量拥塞,为用户提供实时性、预测性、细化优先级的保障服务。

 

图片

 

 

数字员工

 

广东移动业务支撑及管理支撑IT系统以新一代数智化运维管理平台为基座,内置有数字员工,根据工作场景的需要,定制例如智能小7、通报小助手、密码小秘书等不同能力的运维机器人,通过人机交互的方式,高效执行简单指令下的复杂任务,机器人可根据需要对接手机移动端,通过新型的光学字符意图识别技术,结合文本纠正技术和多头注意力机制神经网络模型得到准确的用户意图,并且利用改善后的相似度计算方法进行意图分析,有效避免算法对数值不敏感而导致的机器人执行结果误差,进一步提升机器人的处理质量和处理效率,同时提高用户体验。

 

图片

 

 

流程管控能力

 

结合SRE自动化及ITIL构建新的流程管控能力,通过自动化及CMDB对接,在不影响管控要求的前提下,提升流程运转及跨职能的协同效率,通过流程驱动运维能力的提升。广东移动业务支撑及管理支撑IT系统不仅支持自动化执行诸如权限开通、资源分布、软件部署等流程,极大提高流程执行效率,在容灾切换、扩缩容、关键实例重启、应用发布等自动化操作过程中嵌入审批流程,实现审批流转自动化,审批效率得到有效提升,还能够实现工单信息自动化,例如告警自动转派工单、事件影响度自动调度相关人员、资源上下线自动更新资产库、软硬件出保自动发起流程等,高效且有序地管控流程。

 

 

合作伙伴评价能力

 

获取合作伙伴维护团队提供各项服务时的表现数据(例如故障处理质量、主被动故障发现比率、安全加固服务质量等)作为待评估数据,通过异常数据处理、数据降维、去中心化、计算协方差矩阵、特征值分解等对待评估数据构建特征向量,再通过主成分分析得到主成分数据,然后结合分类维护模型和服务评分模型通过CART集成、余弦相似度计算、权重添加等得到维护团队的综合评价结果,能够有效降低评价过程中的系统运算的复杂程度,减小网络负荷,提高对维护团队进行综合评价的评价效率,利用权重突出团队的突出服务表现项,能够更加直观地挖掘优秀的维护团队。

 

图片

 

中国信通院将持续开展系统稳定性保障能力评估,为各数据产品的稳定性保障提供指导和帮助,助力我国数字化转型实现“又快又稳”。

 

三、中国信通院STAR稳定性评测

 

 

1、数据产品稳定性测试(STAR-P)

 

面向分布式数据产品的测试,考察产品能否在诸多因素的影响下平稳运行。通过维持高负载并注入计算、存储、网络、线程等扰动对产品施加压力,并测量产品对压力的反应,评估产品在各种扰动场景下能否长时间可用并维持一定性能。由信通院提供测试用机房环境。完成测试的企业包括:京东科技、阿里云等。

 

 

2、系统稳定性保障体系评估(STAR-A)

 

面向分布式系统运营方,评估相关团队保障系统平稳运行的能力,即控制系统内部隐患,在故障发生时维持服务,排查故障并恢复系统的能力。评估内容包括设计与开发流程管控、测试与评估、监控与应急、基础设施保障、管理保障等。由信通院评估小组进行现场评估。完成评估的企业包括:浙江移动、工商银行、招商银行、农业银行、中原银行、数字广东、威海市大数据中心等。

 

 

3、稳定性保障平台能力评测(STAR-T)

 

面向稳定性保障技术平台的功能评测,考察机构稳定性平台建设的完善程度。评测覆盖稳定性保障工作的相关工具或平台,包括监控告警平台、压测工具、故障演练平台、应急响应平台、发布平台等关键技术组件的基本功能。由信通院评测小组进行现场评测。

 

 

4、系统全链路压测/拨测服务(STAR-S)

 

面向系统自身的稳定性的压测/拨测服务。包括“全链路压测专项”和“系统可用性监控专项”两个独立项目,由信通院提供压测/拨测服务,并出具官方测试报告,度量系统自身的承载能力和可用性。完成压测专项的系统包括:陕西一码通、宁夏健康码、粤信签等。完成可用性监控专项的企业包括:东方证券、新华网、支付宝、光大银行等。

 

dbaplus社群携手中国信通院

驱动行业数字化升级

 

dbaplus社群作为中国信通院的战略合作伙伴,将共同推动中国信通院稳定性评测体系的推广与落地。此外,在《数据安全治理能力评估(DSG)》《金融大数据能力模型(DataOps)》《数据管理能力成熟度评估模型(DCMM)》,以及“云计算智能化运维(AIOps)能力成熟度模型”系列标准的研制与落地上,dbaplus社群也将持续与中国信通院展开深入合作,携手推动中国企业夯实数字化支撑能力,加速各行业数字化转型。

 

中国信通院稳定性评测体系报名请联系:

 

中国信息通信研究院@王老师 

电话:13011807607

邮箱:wangchaolun@caict.ac.cn

 

中国信息通信研究院@米老师

电话:13261081232

邮箱:milin@caict.ac.cn

 

dbaplus社群@黄老师

电话:13632245594(微信同号)

邮箱:huangguobiao@dbaplus.cn

 

 

本文部分内容源自:CAICT数字化治理

最新评论
访客 2023年08月20日

230721

访客 2023年08月16日

1、导入Mongo Monitor监控工具表结构(mongo_monitor…

访客 2023年08月04日

上面提到: 在问题描述的架构图中我们可以看到,Click…

访客 2023年07月19日

PMM不香吗?

访客 2023年06月20日

如今看都很棒

活动预告