他们默默的奋斗在一线,时刻保障着系统稳定性和业务连续性,忙碌在前台和开发之间,实际工作内容却很少被人了解和关注,所以在这个特殊的日子,带大家深入了解下运行维护部的运维大神们一天24小时都在忙什么。
为保证全省营业厅、渠道网点、客服坐席在开工营业前,系统能够正常运行服务,故障总控台每天早上5点开始对核心系统进行全量业务回归测试,历时2小时,模拟生产环境中系统运行及业务受理情况,评测系统稳定性及业务准确性。
测试范围:①系统覆盖至营业CRM、客服系统、合作式渠道系统和网厅4个系统;②业务覆盖至26类核心业务,共156个测试用例:
营业厅、渠道网点、客服坐席开工后,省运维一线(服务保障)和二线(BOE)也开启了7*12小时轮守值班,在线为前台进行技术支撑。针对不同的内部客户,采取了分流多通道并行的投诉处理模式,经过多年的运营累积,一线服务已形成了客户—一线—地市—省公司的完整服务循环圈,运行维护部还建立了对外的服务SLA体系,旨在不断提升内部客户满意度。
上午业务忙时,故障总控陆续接到了从地市传过来的系统或业务问题,近期正值第三届“流动支撑站”活动,该活动已成为运行维护部每年的例行服务事项,维护小组分批驻点走访11个分公司,开展包含校园营销保障、一线满意度调研和送课下地市等一系列特色活动。
活动期间除了现场技术支持外,还特开省、市绿色保障通道,前线可以随时联调省公司各专家组进行远程连线排查;还会给地市支撑提供不同的专项业务培训,提升地市服务能力;同时还会深入一线网点进行互动沟通,挖掘系统及支撑服务短板,通过这一些列的活动增强省、市、一线的信息交流学习,不断提升内客户满意度。
这会儿BOE又双叒霸占了会议室,正在开专项优化会议,除了日常运维保障外,BOE还在同步开展业务健康度自愈建设、应急流程建设等一系列优化专项。截止目前,家庭市场总体自愈预案73个,政企业务市场总体自愈预案16个。针对客户感知明显的充值到账及复机业务,梳理制定了6项应急流程及方案,还根据套卡激活业务的特性和现有的生产业务流程,拟定了集中在应急管理复机和号码业务激活两大块业务的套卡激活应急流程方案,避免了很多投诉和报障,逐步摆脱救火式运维,将问题发现和优化前移。
到了晚上,一线都已下线,系统处于闲时,SRE团队又开始了“天罡北斗阵”的修炼。SRE应用一些经验探索的原则主动制造故障来观察系统反应,并进行针对性的改进,从而提高系统的弹性。通过这种反复拉锯验证的过程,不仅可以检验系统的容错性、服务可用性和业务连续性,验证应急预案的时效性、准确性,还可以同时锻炼SRE的应急能力,进一步提升服务水平。
19年开始,SRE持续扩展了演练范围,重点包括核心系统高可用和故障注入演练、新增但未经非功能验收的系统的高可用和故障注入演练、核心系统服务降级演练以及应急预案有效性演练。
此外,用工具代替人工海量程序化工作,减少人工干预,解放双手,实现真正的7*24小时运维。
建立周期性业务健康评估体系,以周为单位计算220个业务类别的健康得分,分析四个周期得分环比趋势,为BOE团队提供专项业务优化目标,并为日常业务专项优化提供量化效果评估结果 。
群星聚,天眼开。以应用部署的架构拓扑为主线,融合图形处理技术和智能错误识别算法,降低日志梳理/解析的复杂度,打造天眼日志分析平台,提升对应用系统的监控、快速根因诊断界定的命中率。
作为一线总控服务的工作台,先知以围绕用户、业务、服务、应用、平台五大维度的核心KPI的实时预警监测为突破,提升一线风险预警能力,让总控一线跑赢用户报障,同时融合告警作业、变更管理、故障管理等,提升效率。
基于运维经验,引入故障标签、聚类分析、关联匹配等智能分析模型,开发故障自动诊断决策,实现进程类异常、集群类异常等故障场景下的自愈,实现自动化巡检,自动化修复,自动化操作三位一体的自动化处理。
可视化监控、运维资产管理、智能诊断自愈、故障闭环管理等功能集于一身,还有校园营销专区,便于运维人员分析问题、快速定位,随时随地进行处理。
亲爱的同事:
见信佳!
2019年运行维护部全体人员将不断蓄力,实现运维保障力量再升级,扎实做好系统、业务支撑工作,持续为省市公司提供匠心服务。
地球不爆炸,我们不放假!
宇宙不重启,我们不休息!
作者:曹誉文
来源:三墩IT人(ID:SanDunIT)
dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721