据DNSAdmin爆料:阿里云解释了12月18日史上最长大规模中断(15.5小时)的4大问题。12月25日,阿里云官方发布说明,详细解释了此次中断故障的过程、原因,以及改进措施。
简而言之就是:阿里云冷机故障,引起了机房高温,高温触发了消防喷淋,因为机器湿了,很多机器遇水损坏了,所以修了15个半小时。
据悉,阿里云此次服务中断源于水冷系统出现故障,且长时间无法恢复正常,导致机房温度升高,现场处置不及时又导致触发消防喷淋,部分硬件遇水损坏,另外客户在香港地域新购ECS等管控操作失败,长时间无法扩容。从当天早上8点56分首次检测到故障警告,次日凌晨0点30分所有服务恢复正常,历时超过15个半小时。
阿里云承认,此次香港Region可用区C服务中断事件,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。并向所有受到故障影响的客户公开致歉,称将尽快处理赔偿事宜。阿里云表示,将尽一切努力从此次事件中吸取经验教训,持续提升云服务的稳定性。
不过话说回来,阿里云宕机了,就跟特斯拉自燃了一样,大家依旧会用阿里云。但这次事件对阿里云来说是一次大危机,一秒上亿的交易量竟然能宕机这么久,要修15个小时?难以想象是做了十几年的云服务厂商。不过话说回来,运维人员一定演练过各种疑难杂症,技术方面肯定没得说,但谁曾想到,服务器竟然是以这种形式损坏了。
另外还想说一点阿里云出了这种问题,它不是第一时间处理问题,而是去到处投诉侵权,有几个相关的报道文章就被阿里云投诉说侵害了他们的名誉权,要求立刻删除文章。
来源:卢松松博客 QQ/微信:13340454