双十一第二天,就在刚刚我刷着淘宝聊天记录,发现图片刷不出来了,一看原来是阿里云故障了。这可真是太尴尬了:刚开完云栖大会吹完牛逼,刚办完双十一,就捅了这么大篓子,这下声望可是丢干净了。还好是双十一过完再翻车,不然这杀伤力就更大了。
于是马上去查看了一下查阅阿里云的健康状态页(https://status.aliyun.com/#/)发现服务还都是“正常的”。 Status Page 更新不及时,17:44 确认的故障,差不多到六点半才更新出来故障状态。我估计在服务全挂的状态下,想更新这个也得手忙脚乱一下。(可以想像普通用户甚至可能连故障通告都没法子发)
看 Status Page 发现不是一个可用区的故障,而是全球大故障。没有幸免的区域。包括金融云,政务云。也没有一个幸免的服务,清一色全挂。内部消息是 Auth 服务挂了,导致所有服务全灭。
我尝试登陆了一下 DNS 解析的控制台,404了。用户甚至连切个流量到别的地方降级的可能都没有了。毕竟阿里系自家的服务都在等死。
我感到十分震撼,因为就我从业以来还没听说过这种规模的云计算故障。各个技术群里充满着焦虑愤怒,因为这种情况下,用户的自救可能性为零。只能等待阿里云恢复。
截止到文章发出时阿里云健康页上还没有恢复。这绝对是 CEO 下课级别的故障了,不过阿里云现在应该是没有 CEO 的状态,且看这事如何收场吧。
顺带一提,阿里云大部分服务的 SLA[1] 是 95, 99, 99+ 三档(比如ECS 99.975% ,RDS 99.99),想要全赔你本月的消费,一个月内需要宕机超过 7个小时。如果这次挂了一个小时多,你已经可以获赔本月此项费用的 10% 了。当然,比起用户的损失来,这只能说连安慰都算不上了。

前天刚发了一篇 《阿里云的羊毛抓紧薅,五千的云服务器三百拿》 ,推荐了一下阿里云的羊毛,今天就这样了,让我也感觉很无奈。云厂商不禁夸,一夸就掉链子,还是得骂骂。欢迎大家回味一下《云计算泥石流》系列文章,重新认识一下公有云。(https://vonng.com/cn/blog/cloud/)

References

[1] SLA: https://help.aliyun.com/document_detail/56773.htm
继续阅读
阅读原文