全球十大系统崩溃事件
2021年2月24日,由于操作失误,美联储运营的数个关键支付系统出现服务中断,持续约4个小时,支撑数百万笔金融交易的美联储系统,包括工资单、退税到银行间转账在内的所有业务都被内部故障所干扰。
(信息来源:新浪财经)
2021年2月25日,滴滴出行App出现系统性问题,持续1个小时以上,用户无法使用滴滴出行App进行正常打车、发布行程,司机接到乘客后也无法正常开启订单、结束行程,部分用户乘车价格异常上调。
(信息来源:DoNews)
2021年3月30日,社交媒体平台推特出现系统内部故障,导致用户无法登录访问,持续约2小时。根据宕机监控网站Downdetector.com的数据,多达1.8万用户报告在访问推特时遇到问题。
(信息来源:金融界网)
2021年5月22至26日,IBM Cloud在短短5天内发生两次严重中断事件,华盛顿特区、大阪、伦敦、达拉斯、悉尼、东京和法兰克福等地云服务均受到影响。其中25日的中断为一级严重问题(Severity One),故障发生5小时后各项服务陆续恢复。
(信息来源:中智观察)
2021年6月8日,内容分发网络(CDN)服务商Fastly因一项“服务配置”的修改触发系统漏洞,最终导致包括Reddit、Amazon、CNN、PayPal、Spotify等在内的大量常用网站在近1小时的时间内无法访问。
(信息来源:参考消息)
2021年7月13日,视频网站哔哩哔哩因部分服务器机房发生故障导致无法访问,期间网页端及服务端均出现无法使用与连接的情况,视频播放、直播等多项业务受到持续超过1个小时的影响。
(信息来源:新浪科技)
2021年10月4日,社交网络Facebook及其旗下Messenger、Instagram、WhatsApp等软件出现大规模宕机,全球无法使用超过6个小时,影响约8000万用户。宕机主要原因为DNS服务故障导致用户无法解析Facebook和相关域名并访问服务。
(信息来源:新浪科技)
2021年10月13日,微软Azure虚拟机服务发生长达6小时的中断。因服务管理操作期间的调用故障,导致全球范围内的Azure用户对于Windows虚拟机的启动、创建、更新、删除均无法完成。
(信息来源:云头条)
2021年11月19日,特斯拉App发生全球规模中断,故障原因为配置错误导致网络流量过载最终造成App控制功能失效,用户无法打开车门或启动汽车,整个故障时间长达5小时。
(信息来源:新智元)
2021年12月,亚马逊云计算服务于当月7日、15日、22日分别发生了三次服务中断,不同程度的影响到了大量依托于亚马逊云计算服务的网站或应用服务。故障原因多数由数据中心及网络连接等相关问题引起,平均经过2~3小时左右恢复。
(信息来源:新浪科技)
为何大规模宕机在全球范围内愈发频繁呢?
原因有如下几点:
分布式、微服务架构的普及使得系统更为复杂,这将加大故障引入的概率,并使得系统中潜在的缺陷更难被发现。
系统的规模更为庞大,致使系统宕机所影响的用户数量更多,造成的损失更显著。
近十余年来大数据、云计算、人工智能、元宇宙领域新兴技术迅速发展。各行业的IT系统迭代迅速,以更快地吸纳这些新兴技术,率先占领市场。系统长期运行的稳定性往往会被忽视,欠下技术债。
国际上疫情的持续蔓延使大量的业务转为线上,各线上系统的日活用户都有显著的增长。而传统行业不一定具备足够的技术实力保障线上系统的稳定性。
那么如何做好系统稳定性保障呢?
由于软件系统在本质上来说具备复杂性,其中任何一个环节出现问题都可能造成系统缺陷的引入,稳定性保障工作也必然需要覆盖整个软件生命周期。中国信息通信研究院在2022年1月正式成立分布式系统稳定性实验室,梳理相关方法论,目前已经完成《分布式数据产品稳定性测试方法》,《分布式系统稳定性保障能力分级要求》等技术标准,完成《混沌工程实践指南》等研究报告,建立了业界首个稳定性评测体系。未来仍会依托分布式系统稳定性实验室开展稳定性相关标准制定和评测工作,举办相关领域的会议和技术沙龙,协同成员单位一起推动IT产业平稳健康地发展。欢迎广大业内同仁交流讨论。
联系人
中国信息通信研究院@王超伦
电话:13011807607
邮箱:wangchaolun@caict.ac.cn
dbaplus社群@林老师
电话:19879094604
邮箱:linyuting@dbaplus.cn
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721