3月24日SAE故障后感想

SAE出口点众多,以往即便某条线故障,我博客依然可以从其他地方访问,可万事无绝对。3月24日SAE核心区那次电力故障,致使SAE整个数据中心瞬间宕机。当时正值深夜,我是没什么感觉,也是官方出面后我才知道怎么回事。细读一番说明,我了解即便SAE号称分布式计算,它目前也是依赖单独一个核心机房,尽管这重点机房多重防护做得很好。也还是将鸡蛋放在了一个篮子里。先不说机房遭遇恐怖袭击,导弹轰炸这样极端的事,一次市电线路故障居然都能殃及无辜……

因为SAE是实施计费的,此故障时间比较长,影响较大。官方给予了云豆日平均消耗的30倍,大约一个月的补偿,解释道歉后,SAE表示在今年下半年在南方增设备用节点。大约意思是今后即便北方机房坏掉,也有南方机房热备,随时可以顶上的意思。

可能大家很奇怪,一般机房都有双线供电,并有UPS不间断电源保证平稳切换的,怎么还犯电源故障这种低级错误呢?以下是官方说明的原文:

2014年3月24日22:53分,SAE的核心数据中心突然发生电力故障,导致该中心内所有设备宕机。故障出现时正值深夜,SAE团队立即进行紧急处理,并于25日2点开始逐步恢复服务,虽然我们尽了最大努力,但还是对用户的应用造成了很大影响,在此,SAE团队对各位用户致以最诚挚的歉意,为了尽量弥补给广大用户造成的损失,SAE将补偿各位用户30倍故障时间的云豆消耗额,企业用户服务也将按照故障时间的30倍进行延长。此次云豆补偿将以云豆卡的形式发送,用户可以根据自己的需求选择账号进行充值。

关于此次故障几点说明:

1.故障的原因到底是什么?

此次故障原因是因为运营商机房,在未事先通知我方准备的情况下,发生整体电力故障,以下源引运营商故障说明,“2014年3月24日22:53分,在进行市电与油机供电切换过程中,发现UPS设备输出供电闪断。厂家根据告警的历史记录,进行了综合分析,判断原因为该UPS系统在市电供电与油机供电切换的瞬间,市电交流电的相位及频率发生波动,使油机发出的交流电相位,频率与市电相位,频率不同步,无法进行跟踪,导致该UPS系统瞬间切断负载供电,进入到优先保护UPS主机状态”,应该承认类似此类影响整个核心机房供电的故障极其罕见,但也确实发生了,并给SAE上大部分用户带来致命影响,SAE作为云计算服务商,对下游资源负责,不推卸责任,说明原因只是让用户了解到具体细节。

2.我的数据会不会丢失?

目前数据已经基本恢复,不会出现数据丢失的情况,如果您的数据恢复遇到问题可以联系我们(普通用户可以通过官方论坛和意见反馈,企业用户可以直接电话联系客户经理),我们会尽快帮您解决。

3.我的补偿如何计算?

我们会根据您应用上周的云豆消耗,计算一个云豆日消耗的平均值,然后乘以30,此次补偿将以云豆卡的方式发送(不绑定账户),您可以根据自己的需求选择账户进行充值。

补偿云豆数量=应用上周日均云豆消耗*30。

同时,我们将会延长企业用户30天的账户等级提升服务。

云豆卡将于本周内陆续发放,届时请登录SAE查看系统通知。

4.为什么故障恢复需要的时间很长?

在本次故障发生之前,SAE每周定期进行服务器重启预案演练,力求在服务器异常重启后不能影响应用的正常访问。但本次故障是核心机房电源故障,相信大家都经历过传统windows PC突然断电重启后缓慢的磁盘修复同步过程,服务器也不例外,大批服务器在业务繁忙运行时同时断电不仅会波及SAE其他机房,而且会导致大量数据异常,包括内核panic、挂载点丢失、库表损坏、文件块损坏、日志损坏等,这些很多都需要人工介入逐个修复,所以恢复时间会比正常机器重启长很多。

5.这样的事情还会不会发生,SAE是如何进行机房容灾的?

此次发生电源故障的是SAE核心机房,该机房是目前国内主流运营商的骨干机房,诸如UPS、双路电源都是我们当初选择该机房的必备考核指标,但即使如此,故障仍然发生,SAE将加强和运营商沟通避免此类情况再次发生。故障发生后,SAE第一时间和机房交涉,工程师连夜赶赴机房,全体工程师通宵努力,为了就是让大家的应用早日恢复。虽然自2009年SAE正式上线至今,这是第一次发生此类极端故障,但SAE仍将深刻吸取本次故障的教训,加强机房管理,并在今年下半年在南方增设备用节点。

SAE比任何人都不希望故障的发生,因为只有稳定才是云计算服务的核心价值,才是用户使用、信任SAE的唯一理由!故障发生后,瞬时间天南地北的电话和反馈,让SAE的所有人感觉到我们的责任是多么之重,稳定对用户是多么珍贵,这些反馈有谩骂、嘲讽也有鼓励和理解,对于前两者,我们欣然接受,你们的批评是我们前进的动力,对于后两者,我们表示感激,我们坚信PaaS云计算模式的快速部署、免运维是未来云计算发展的必然趋势!本次故障也暴露了SAE自身的一些问题,特别是对于核心机房全体断电的突发情况应对不足,SAE也愿意在全体用户的监督下,用实际行动进行改进!

最后,再次向您表示最真诚的歉意,今后SAE团队将会尽最大的努力,保证平台的稳定运行,希望大家继续支持SAE!

其他相关文章
  • 暂无相关文章
  • 觉得好可以点个赞!
    (暂无人赞)
    Loading...

    《3月24日SAE故障后感想》有17个想法

    1. 有人说SAE绑定未备案的域名通过海外服务器访问会很慢,为什么我大网站打开得很快。360太流氓,360spider每天大量遍历我的网站,就是不索引,云豆花花得掉啊

    hua进行回复 取消回复

    电子邮件地址不会被公开。 必填项已用*标注