微信宕机事故
2013年7月22日,微信发生了一次非常严重的宕机事故,这次事故造成了将近7个小时的网络中断。据微信官方公布信息,由于上海一支施工队挖断了通信光缆,导致腾讯华东数据处理中心的业务请求纷纷转向华南和华北,进而导致了业务的全面瘫痪。
5.27支付宝大规模宕机事故
2015年5月27日下午,部分用户反映其支付宝出现网络故障,账号无法登录或支付。支付宝官方表示,故障是由于杭州市萧山区某地光纤被挖断导致,该事件造成部分用户无法使用支付宝。随后支付宝工程师紧急将用户请求切换至其他机房,受影响的用户开始逐步恢复。到了晚上7点20分,支付宝方面宣布用户服务已经完全恢复正常。
美国大宕机
作为网络安全水平全球第一的美国,也曾发生过重大的宕机事故。2016年10月21日早晨,许多美国用户突然发现包括Twitter、CNN、Spotify等大型网站均无法登陆。这场网络瘫痪从美国东部开始,一路蔓延至全美区域。事后发现查明,原因是服务器遭受了黑客的DDoS攻击。
Gitlab误删数据库
2017年1月31日,Gitlab 遭受到DDoS 攻击,导致数据库写入锁定,网站出现不稳定和宕机。在阻止了恶意邮件发送者之后,运维人员开始修复数据库不同步的问题,在修复过程中,错误的在生产环境上执行了数据库目录删除命令,导致300GB数据被删除,Gitlab也因此被迫下线。整个断线过程持续时间达18个小时,丢失了用户近6小时的数据。
常见的宕机原因和启示
为了妥善解决停机和计划外的中断问题,服务器托管提供商必须先了解此类事件的主要原因。据行业媒体"Data Center Journal"撰稿人Rob McClary介绍,虽然很多人认为网络或设备的设计是导致停机的主要原因。但事实上,每年更多的停机原因是人为错误。
除了人为的错误之外,其他主要停机原因还包括维护措施和生命周期策略不佳,以及数据中心选址,风险缓解措施不足等。
虽然大多数停机事件与人为错误,选址或维护不力相关,但还有一些原因非常难以预测。行业专家表示,有的是松鼠啃噬数据中心外部电源线而导致的停电事故,有的是铁锚刮断了设置在海底的通讯电缆,而有的是由于点燃的烟头引起的火灾。
随着云计算技术和应用的快速发展,云端存储已经变得越来越方便了。可是,为了防止意外的发生,对重要数据进行备份还是非常重要的。除此之外,由于宕机事故无法杜绝,应该提前做好宕机应急方案,以将事故危害降到最低。同时,日常维护检查也是必不可少的一项。