数据中心宿敌 细数全球十大宕机事件

OFweek光通讯网 王小方 中字

微信宕机事故

2013年7月22日,微信发生了一次非常严重的宕机事故,这次事故造成了将近7个小时的网络中断。据微信官方公布信息,由于上海一支施工队挖断了通信光缆,导致腾讯华东数据处理中心的业务请求纷纷转向华南和华北,进而导致了业务的全面瘫痪。

5.27支付宝大规模宕机事故

2015年5月27日下午,部分用户反映其支付宝出现网络故障,账号无法登录或支付。支付宝官方表示,故障是由于杭州市萧山区某地光纤被挖断导致,该事件造成部分用户无法使用支付宝。随后支付宝工程师紧急将用户请求切换至其他机房,受影响的用户开始逐步恢复。到了晚上7点20分,支付宝方面宣布用户服务已经完全恢复正常。

美国大宕机

作为网络安全水平全球第一的美国,也曾发生过重大的宕机事故。2016年10月21日早晨,许多美国用户突然发现包括Twitter、CNN、Spotify等大型网站均无法登陆。这场网络瘫痪从美国东部开始,一路蔓延至全美区域。事后发现查明,原因是服务器遭受了黑客的DDoS攻击。

Gitlab误删数据库

2017年1月31日,Gitlab 遭受到DDoS 攻击,导致数据库写入锁定,网站出现不稳定和宕机。在阻止了恶意邮件发送者之后,运维人员开始修复数据库不同步的问题,在修复过程中,错误的在生产环境上执行了数据库目录删除命令,导致300GB数据被删除,Gitlab也因此被迫下线。整个断线过程持续时间达18个小时,丢失了用户近6小时的数据。

常见的宕机原因和启示

为了妥善解决停机和计划外的中断问题,服务器托管提供商必须先了解此类事件的主要原因。据行业媒体"Data Center Journal"撰稿人Rob McClary介绍,虽然很多人认为网络或设备的设计是导致停机的主要原因。但事实上,每年更多的停机原因是人为错误。

除了人为的错误之外,其他主要停机原因还包括维护措施和生命周期策略不佳,以及数据中心选址,风险缓解措施不足等。

虽然大多数停机事件与人为错误,选址或维护不力相关,但还有一些原因非常难以预测。行业专家表示,有的是松鼠啃噬数据中心外部电源线而导致的停电事故,有的是铁锚刮断了设置在海底的通讯电缆,而有的是由于点燃的烟头引起的火灾。

随着云计算技术和应用的快速发展,云端存储已经变得越来越方便了。可是,为了防止意外的发生,对重要数据进行备份还是非常重要的。除此之外,由于宕机事故无法杜绝,应该提前做好宕机应急方案,以将事故危害降到最低。同时,日常维护检查也是必不可少的一项。

声明: 本网站所刊载信息,不代表OFweek观点。刊用本站稿件,务经书面授权。未经授权禁止转载、摘编、复制、翻译及建立镜像,违者将依法追究法律责任。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存