本文首发微信公众号:飞总聊IT
阿里云这两天发生了故障。阿里云官方回应如下:
尊敬的客户:您好!

北京时间 2023 年 11 月 12 日 17:44 起,阿里云监控发现云产品控制台访问及 API 调用出现异常,阿里云工程师正在紧急介入排查。非常抱歉给您的使用带来不便,若有任何问题,请随时联系我们。
从目前的情况来看,阿里云出问题的是产品控制台和管控API,所以这也导致了所有图片加载和云盘相关的问题。
这些东西的影响范围当然很广,但是是不是造成了很严重的影响,那就不见得了。阿里云核心业务类似ECS或者RDS并没有受到影响。 

但是网上有很多情绪,很多人冷嘲热讽的。感觉全网都在带节奏看热闹。这就有点说不过去了。

做云计算的都知道,有故障不奇怪。毕竟,云平台这么大了以后,连测试都很困难,你不可能有一个和云平台一样的测试环境,太多机器了。所以,时不时出点bug是所有云厂商都无法解决的问题。
而阿里云故障的时候,一则谣言传播开来,谣言是张图片,里面说马化腾表示用阿里云不如来腾讯云。
这事情还上了微博热搜。腾讯云的官方只好下台辟谣,表示欢迎大家来使用腾讯云,但是有关马化腾的谣言就不要乱传了。
那么问题来了,要是将来哪天腾讯云出故障了,会不会有人造谣说马云说腾讯云不如阿里云,大家都来用阿里云呢?
要说这几家公司的产品,到底谁比谁好,那是说不清楚了。毕竟产品是互有优势的。
而且我觉得,应该不存在着公司的大领导亲自下台,以指责竞争对手产品不行的方式,鼓励大家来用自己的产品。毕竟要是这样做了,也就太显得有点没品了。
但是网上不嫌弃事情大的吃瓜群众,应该是不介意把事情闹得更大一点。一边说阿里云这次宕机是怎么怎么样的天灾一般的严重,一边说腾讯云比阿里云好。
这真的是要忙坏各家公司的公关和法务部门了。

云这个东西,最难做的就是测试,因为不可能再提供一个相同环境规模的测试环境,所以很多bug必然是要在生成环境中才能发现的。
但是话说回来,一般来说,云厂商在部署更新的时候也应该小心谨慎,先更新5%,看着不对就回滚,然后慢慢增加新版本的部署量。

阿里云这次的故障,是不是因为某些服务在更新的时候,新版本有bug,然后又没能够有效的按照增量慢慢部署,有监控看到不对就回滚。我就不知道了。
我觉得等故障说明出来看,就应该知道具体是什么问题了。

我建了个星球,聚焦讨论职场发展和裁员应对的问题,有兴趣的朋友可以加入,向我提问,和我一起讨论这方面的问题。
继续阅读
阅读原文