今天傍晚阿里云控制台出现登录问题,OSS 无法正常上传文件,“XX崩了”迅速成为微博热点。
根据网友反馈,因阿里云服务故障导致无法访问、功能卡慢的 APP 不仅有阿里巴巴自己的淘宝、闲鱼、阿里云盘、钉钉,其他依赖阿里云基础服务的 APP 如高德地图、饿了么、夸克、盒马生鲜、蜜雪冰城等等均受到影响。
从报道的信息得知,17:44 阿里云监控发现云产品控制台访问及 API 调用出现异常,工程师介入排查;17:50 确认故障原因与某个底层服务组件相关,工程师紧急处理;18:54 杭州、北京等地域控制台恢复,其他地域逐步恢复;19:20 工程师通过分批重启组件服务,绝大部分地域控制台恢复访问。至此,受影响的 APP 也已基本恢复正常。
这次阿里云事故影响深远,在微博上引发热议,还出现了 #你崩我也崩# 这样的话题。
事故发生后,阿里云能够迅速发现异常、找出原因、解决问题,其响应速度和解决效率是不错的,但是也暴露出一些问题。首先是系统的复杂度导致阿里云很难挖出细小的隐患,而这个隐患在某个时机就可能变成一颗大炸弹;其次是和国民生活紧密相关的许多产品都严重依赖阿里云这样的基础设施,一旦阿里云出现问题就会将大量企业和个人拖下水。
本次阿里全系产品都受到影响,许多以阿里云为基础的第三方服务也几乎停摆,属于非常重大的事故。接下来阿里云必定需要处理大量企业之间的利益纠纷和赔偿,同时其内部也需要确定责任和自查自纠。