阿里云全线产品突发史诗级故障,官方披露故障原因

dbaplus社群 2023-11-14 09:57:09
12日下午,阿里巴巴旗下淘宝、闲鱼、阿里云盘、钉钉在内的多款产品疑似无法正常操作。该话题迅速在网络上引起热议,【阿里云全线产品崩了】一齐冲上微博热搜。

 

图片

 

2023年11月12日17:44起,阿里云产品控制台访问及API调用出现使用异常,阿里云工程师正在紧急介入排查。

 

 
阿里云健康状态:

 

图片

 

 
受影响产品:

 

企业级分布式应用服务、消息队列 MQ、微服务引擎、链路追踪、应用高可用服务、应用实时监控服务、Prometheus监控服务、消息服务、消息队列Kafka版、机器学习、图像搜索、智能推荐 AIRec、智能开放搜索 OpenSearch、云行情、数据总线 DataHub、检索分析服务 Elasticsearch版、图计算服务 Graph Compute、实时计算 Flink版、智能数据建设与治理 Dataphin、开源大数据平台 E-MapReduce、云原生大数据计算服务 MaxCompute、实时数仓 Hologres、大数据开发治理平台 DataWorks、智能媒体服务、媒体处理、视频点播、对象存储、文件存储NAS、表格存储、日志服务、云存储网关、文件存储 HDFS 版、块存储、混合云备份服务、密钥管理服务、云防火墙、数据库审计、加密服务、运维安全中心(堡垒机)、容器镜像服务、容器服务Kubernetes版、API 网关、资源编排、云原生数据仓库 AnalyticDB PostgreSQL版、图数据库、云原生内存数据库Tair、云数据库 Redis 版、云原生关系型数据库 PolarDB、云数据库专属集群、云数据库 MySQL 版、云原生数据仓库AnalyticDB MySQL版、云原生分布式数据库 PolarDB-X、云数据库 ClickHouse、云原生多模数据库Lindorm、云数据库 PostgreSQL 版、云数据库 SQL Server 版、云数据库 MongoDB 版、云数据库HBase版、数据传输、数据库自治服务、数据库备份、物联网平台、NAT网关、负载均衡、云解析 PrivateZone、弹性公网IP、共享带宽、转发路由器、私网连接、高速通道、IPv6 网关、专有网络VPC、云企业网、VPN网关、FPGA 云服务器、超级计算集群、批量计算、无影云桌面、弹性伸缩、弹性容器实例、弹性裸金属服务器、云服务器 ECS、轻量应用服务器、函数计算、Serverless 应用引擎、云托付、专有宿主机、GPU云服务器、弹性高性能计算、操作审计、服务器迁移中心、运维编排、智能计算灵骏、云呼叫中心、交通云控平台、客服工作台、视觉智能开放平台、智能外呼机器人、智能语音交互、智能对话机器人、智能用户增长、运维事件中心、新零售智能助理、智能双录质检、地址标准化、机器翻译、自然语言处理、短信服务、云解析DNS、域名、号码认证服务、邮件推送、版权与专利服务、语音服务、智能联络中心、工商财税、Salesforce on Alibaba Cloud、智能营销引擎、云采销、能耗宝、阿里邮箱、商标服务、移动研发平台、机器人流程自动化、号码隐私保护、DataV数据可视化、音视频通信、视频直播、闪电立方、网盘与相册服务、安全、内容安全、安全管家、应用身份服务 (IDaaS)、实人认证、数字证书管理服务(原SSL证书)、风险识别、Web应用防火墙、云安全中心(态势感知)、数据管理、云价签、云投屏、物联网智能视频服务、物联网无线连接服务、CDN、云数据传输、数据语音、智能接入网关、全站加速、ChatAPP 消息、全球加速、安全加速 SCDN、边缘节点服务 ENS、访问控制、资源管理、云监控、配置审计;

 

 
受影响地域:

 

华北2(北京)、华北6(乌兰察布)、华北1(青岛)、华东2(上海)、华南2(河源)、华北3(张家口)、中国香港、印度(孟买)、美国(硅谷)、华南1(深圳)、英国(伦敦)、韩国(首尔)、日本(东京)、阿联酋(迪拜)、西南1(成都)、华南3(广州)、新加坡、澳大利亚(悉尼)、马来西亚(吉隆坡)、华北5(呼和浩特)、印度尼西亚(雅加达)、美国(弗吉尼亚)、菲律宾(马尼拉)、泰国(曼谷)、华东1(杭州)、华南1 金融云、华东5(南京-本地地域)、华东6(福州-本地地域)、华北2 金融云(邀测)、华东2 金融云、华东1 金融云、华北2 阿里政务云1、非区域性、德国(法兰克福)、沙特(利雅得-合作伙伴运营);

 

 

18:16 阿里云官方回应,进展更新:

 

图片

 

进展更新
 
 
17:50,阿里云已确认故障原因与某个底层服务组件有关,工程师正在紧急处理中。
 
18:54,经过工程师处理,杭州、北京等地域控制台及API服务已恢复,其他地域控制台服务逐步恢复中。
 
19:20,工程师通过分批重启组件服务,绝大部分地域控制台及API服务已恢复。
 
 
19:43,异常管控服务组件均已完成重启,除个别云产品(如消息队列MQ、消息服务MNS)仍需处理,其余云产品控制台及API服务已恢复。
 
20:12,北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。
 
21:11,受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。

前述故障影响范围说明:

云产品控制台、管控API等功能受到影响,大部分产品如ECS、RDS、网络等的实际运行不受影响。OSS、OTS、SLS、MNS等产品的服务受到影响。

此次事件的最新进展及处理细节,我们将持续关注,欢迎大家留言交流~

 
最新评论
访客 2023年08月20日

230721

访客 2023年08月16日

1、导入Mongo Monitor监控工具表结构(mongo_monitor…

访客 2023年08月04日

上面提到: 在问题描述的架构图中我们可以看到,Click…

访客 2023年07月19日

PMM不香吗?

访客 2023年06月20日

如今看都很棒

活动预告