• 1
  • 2
  • 3
  • 4
  • 5
阿里云主机ECS 首 页  »  帮助中心  »  云服务器  »  阿里云主机ECS
阿里云香港机房瘫痪12小时的原因
发布日期:2016-4-2 23:4:11

  阿里云香港机房瘫痪12小时的原因

  光纤没有挖断,同时也不是电力部门问题,更没有所谓的消防警报延误抢修时间,经过财新记者多方调查核实,阿里云在香港中止服务12小时这一事件就是一起由硬件故障引发、抢修和恢复严重超时的事故。

  这类数据中心的电力事故原本是国内外云服务商普遍面临的一大问题,但是用一位业内资深人士的话来说,“12小时才恢复实在太久了。应该几分钟就可以解决的。”

  12个小时的超长处理时间,以及过程当中阿里云与相关方陆续给出的五花八门甚至自相矛盾的解释引发了用户的不满和业内的质疑,也暴露了阿里云在故障处理和公众沟通中存在的问题。有部分用户甚至反映经过15个小时业务才恢复。

  事故发生在2015年6月21日上午9点到10点之间,一些使用阿里云香港数据中心的用户发现服务出了问题,然后,阿里云方面通过博客公告称由于运营商电力问题造成香港机房故障,正在抢修。

  此后阿里云的客服给用户的解释几易其口。有的用户告诉财新记者,事故后致电阿里云官方客服,得到的解释是香港和大陆地区所连光缆挖断,但是用户质疑“难道只有一条光缆”后,阿里又回复称是因为运营商的电力故障所造成的。

  在6月23日,阿里云方面向财新记者发来声明对事故作出说明:6月21日上午9点37分,阿里监控系统发现阿里云香港IDC运营商名气通机房出现访问异常,名气通反馈原因为供电系统故障导致数据中心大楼整体断电,并触发消防报警。根据当地的消防规定,必须彻底排查隐患并完全消除后,才可以获准进场做电力抢修。21点22分机房正式恢复稳定供电,阿里立即执行既定预案逐项恢复服务,21点32分安全防护服务恢复正常,各项服务陆续恢复,截至23点39分全部服务恢复。

  按照这份说明,阿里云香港服务瘫痪12小时主要是由于机房建设方和运营商名气通电力故障,阿里云直到电力故障发生近12个小时后才得以进入机房抢修。从阿里云的解释来看没能及时抢修成功是因为整栋大楼都断电而且无法切换备用电源,并且消防隐患排查耽误了抢修时间。阿里云只用了10分钟(21时22 分到21时32分)恢复了安全防护服务,然后用了两个小时恢复全部服务。

  但事实并不是这一的。

  消防警报子虚乌有

  一时间,阿里云香港合作伙伴运营商名气通被推上风口浪尖,6月23日下午,名气通方面经财新记者多次询问发来了官方回应,承认电力故障,但是只字未提大楼整体断电,以及消防火警等因素影响。

  名气通称其香港二号数据中心于2015年6月21日上午9点40分,因电力出现故障,导致部分客户服务中断。名气通在第一时间启动应急方案,进行紧急抢修,并在下午2点恢复部客户的服务,并于当日晚上9点50分,完全恢复电力供应,客户服务全部回复正常。

  在现场参与抢修的不愿具名人士告诉财新记者,当时其实并没有火警以及消防等因素干扰,整栋大楼也并未断电,只有部分用户受影响。该人士明确表示,“消防封楼因素造成客户无法进入数据中心处理事故是谣传。”。

  对于事故处理经过,他称:”就是电力故障,名气通的部分用户受到影响,阿里云是其中一个,名气通的数据运营团队第一时间就通知了客户,最早的客户10点不到就到了。”但是,问什么需要12小时才恢复电力,该人士称自己并不是工程出身所有无法回答。

  事故责任双方对于事故经过解释有所不同。财新记者联系了香港消防处,官方给出的回复称,为了防止安全隐患,不排除因为故障触发消防系统自动断电。但是消防处称查阅火警记录后告诉财新记者,21日上午9点到10点半这段时间内,名气通机房所在的将军澳地区并没有关于名气通二号数据中心的记录。这就意味着事故发生当时当地没有接报火警,也没有消防处人员到场处理,所谓消防因素延迟了事故处理的说法不成立。

  业内人士也向财新记者分析认为所谓消防因素是非常不合常理的。国内一运营商在香港数据中心工作的人士告诉财新记者,名气通二号数据中心所在的香港将军澳产业村是香港最重要的数据中心集中区域,国内运营商、香港地区多个重要金融机构的机房均建设于此。“香港方面在消防、台风等各类备灾上是很注意的,因为消防安全处理造成一个机房十几个小时不通电很难想象。”他说。

  针对各方的质疑,阿里云于6月23日傍晚再次致电财新记者,它提供了更多事故细节。新的说法是:并不是整栋大楼断电,只是机房所在楼层,但是因为物业工作人员考虑到安全问题要求整栋大楼疏散。而阿里云方面到下午14时才得以进入机房配合IDC运营商处理事故。

  根据新的说法,阿里云开始抢修和处理事故的时间是下午14时并非晚上21时22分,整整提前了七个多小时。

  一位国内大型互联网公司IT基础设施技术的负责人向财新记者分析了造成断电的可能原因。他指出,国内互联网公司在国内的机房就算外部电力全部切断,它也都有备用的柴油发动机,能够维持的时间也会比较久。在他看来,香港机房断电最可能的原因是由于控电设备故障,接入强的外部直流电源无法实现切换,因而服务器大面积断电,导致服务器宕机。这类维修耗时较长。另一种可能的原因则是由于柴油发电机的供电模组不可用或者故障所造成的。

  无论是哪一类事故原因,断电12小时在业内都被认为是”太久了“。

  企事录创始人张广彬告诉财新记者,一般数据中心的最高标准是Tier 4,即保证99.995%的可用性,这就意味着一年里的中断时间不能超过半小时。这已经是很高的标准了,能达到Tier 4标准的数据中心不是很多。

  香港名气通2号数据中心的标准不低于Tier 3,理论上说全年中断时间不应超过1.6小时。据张广彬称,近期机房断电的消息比较多发,,本月初国内另一家云服务公司青云也曾遭遇广东机房的电力故障。这可能也和云服务在国内逐渐普及有关,国外包括亚马逊、微软的云服务在前几年也都出现过比较严重的中断现象,有些是软件bug引起的。一旦断电后,有可能对机房的硬件,以及云系统软件构成影响,就算是恢复供电后也需要一定时间处理让服务恢复正常运行。在他看来,持续12小时的断电是近年来非常严重的事故:“阿里云作为大公司,因为用户数量多所以影响范围也比较大。”

  海外云服务模式安全么?

  实际上,就在阿里云出事故的同时,自媒体人徐家俊也反映自己使用的另一家虚拟主机商恒创科技的主机也出现瘫痪。6月23日下午,徐家俊告诉财新记者目前服务恢复,但公司未给任何公告以及事件解释,公司客服方面称要到6月23日晚间才回邮件告知事故原因。在他看来,香港主机、机房和云计算服务出问题并非个例。香港云服务的安全性值得关注。

  中国的很多互联网公司之所以选择香港数据中心,一方面是海外业务需求,另一方面是为了绕过内地的数据备案制度。随着创业公司大批涌入,以及互联网公司海外业务需求,越来越多的公司选择使用香港云服务。

  前述国内运营商人士告诉财新记者,香港地区气候炎热,且多有台风等灾害,在数据中心选址上并不特别有优势。但香港政府方面对数据中心建设非常支持,很多机房都提供免费的制冷供电,甚至提供两个电力供应商。此外,香港是亚太地区海底光缆集中交汇地区,通讯覆盖非常全。基于这样的基础设施,很多主机和数据中心建设商都选择在香港建机房。

  张广彬告诉财新记者,因为业务全球分布较好,美国的大型互联网公司在欧洲和亚洲设立数据中心时也多选择自建模式。但中国互联网公司的云服务主要服务于自身本土业务,在海外扩张时通常先采用租用或合作模式,即租用机房和数据中心,数据中心运营交给合作伙伴,便于快速起步。虽然租用和自建在运营过程中没有绝对的优劣对比,但自建模式的内部协调效率更高。

  在这次事故中,阿里云和名气通的事故处理都暴露了问题。张广彬介绍,名气通作为香港煤气旗下公司,公司依靠光纤和煤气同管道铺设在网络覆盖上有优势,在内地也已经建立多个数据中心:“算是有名气的公司,出这样的问题还是很让人意外的。”

  据财新记者了解,包括阿里和腾讯等在内,国内云服务公司在香港地区多为单一数据中心,目前尚不具备同城备灾系统。阿里云和腾讯云都称目前正在筹建香港的第二个数据中心。

  用户的不满与阿里云的信任危机

  阿里云用户对此次事故的质疑和不满更多并不是来自技术,而是针对阿里云对事实的披露效率和诚信。

  阿里云21日上午10点35分在博客上挂出公告称故障正在抢修,希望用户测试服务是否恢复正常,并电话或者工单反馈。

  阿里云后来在给财新记者的回复中也称在与香港名气通进行深入复盘,并要求其尽快完成整改,避免此类问题再次发生。同时已经启动对客户百倍赔偿。阿里云称:“我们深知赔偿不能解决所有问题,我们对造成阿里云香港中断服务深表愧疚。云计算是一个复杂的系统工程,过程中有着各种艰难险阻。我们将一如既往地努力,消除一切隐患,共同和我们的客户一起实现云计算梦想。”

  然而,在阿里云等论坛上,不少用户对阿里云的事后处理非常不满。使用阿里云的米芽时代创始人童谣告诉财新记者,故障后网站无法访问,无法切换。而公司对数据没有本地备份和异地备份,业务直到晚上11点才恢复正常:“多次重启服务器,尝试了很多次才可以正常使用,根本没有无缝衔接。”

  童谣告诉财新记者,公司原本使用腾讯云服务,后来觉得阿里云在传输稳定性等方面更胜一筹就转到了阿里云。但这次事件后,他们开始考虑将部分业务再次签回腾讯云。

  实际上,由于云服务是IT基础服务,一旦遇到公司提供的是平台业务,后续影响的将是各类普通用户。一位用户在国内使用某交易平台公司的服务进行比特币交易,服务崩溃十几个小时,交易受阻,损失无法评估。更让他郁闷的是,阿里云只会赔偿平台,但平台实际上没有业务,无所谓损失,只有他这样的终端用户会守着电脑一遍遍刷新几个小时。在他看来,阿里云这样大的公司,事故发生三个小时后才告之设备故障“很不正常”。