阿里云 11. 12 大故障两周 过去,还没有看到官方的详细复盘报告,结果又来了一场大故障:中美7个区域的数据库管控挂了近两个小时

当然与上次 Auth故障类似,因为数据库这种 IaaS 资源类服务不会因为管控挂了就不能用了 —— 你确实无法通过 API 与控制台对数据库进行管理与变更,但是数据库本身是活着的,也可以正常使用访问。
这一次和 11.12 故障属于让官方发全站公告的显著故障,没记错的话,11月份还有两次较小规模的局部故障。这种故障频率即使是对于草台班子来说也有些过份了某种意义上说,阿里云这种周爆频率可以凭一己之力,毁掉用户对公有云云厂商的托管服务的信心:只是单纯使用纯资源的 ECS / RDS ,不会因为管控挂了就不能用了。而那些听信云厂商布道师宣传,深度使用 IAM,托管服务,用云管控API凌空杂耍弹性创建销毁资源的用户,遇到管控面挂了那就真抓瞎了。
更进一步说,作为云服务的核心 —— 管控服务如果是这个稳定性水平,那么高价值客户为什么要花十几倍到上百倍的资源溢价来买云上的托管资源。而不是直接去移动联通机房租个机柜,雇两个大厂SRE,买服务器用开源软件自建?这是阿里云应当认真思考与回答的问题。(重新拿回计算机硬件的红利
阿里云上次 11.12 的故障,到今天都没一份像样的复盘分析报告对于 Auth不可用样的顶级故障来说是完全说不过去的,这一次又是管控面的问题,可谓雪上加霜。这会对品牌形象产生致命打击—— 吹过的牛逼会像回旋镖一样打回到自己身上,而专业用户象会最终停留定格在草台班子的滑稽画像上。

参考阅读


继续阅读
阅读原文