2018年10月16日晚上,美国、南美和欧洲许多网友像往常一样打开YouTube,本想着像往常一样刷上几个视频,可输入了账号和密码之后,发现怎么也登陆不上去,仔细核对账号密码后,依然登陆不上。
过后才发现,原来YouTube当时发生了宕机事故。事故当天,许多用户出现网页无法打开、用户无法登陆、视频播放中断的情况。网页端和移动端均出现类似情况,整个中断时间超过2个小时。
宕机事故导致损失大
对于数据中心而言,宕机是十分难以承受的事件。宕机会造成数据中心的业务中断,导致用户无法正常访问应用程序。在严重的情况下,会给企业业务方面造成巨大损失。据相关行业专家表示,数据中心停机在美国每分钟造成的平均损失约为8000美元。
随着互联网行业的快速崛起,在数据存储和处理上都有了更高的要求。巨头们纷纷搭建数据中心以支撑日常业务的开展,并以此抢占更大的市场份额。本文针对国内外发生的十次具有代表性的宕机事故进行讲解,其中不乏微软、腾讯、阿里巴巴等互联网巨头。
T-Mobile Sidekick手机故障
早在2009年秋季,微软的一次云服务故障给T-Mobile Sidekick的手机用户们带来了巨大麻烦。一时间,电子邮箱无法登陆、日历信息无法查看、也无法同他人进行联系,所有个人数据被锁在云端中长达一周时间。
雅虎邮箱故障
2013年10月,雅虎邮箱进行了一次重大升级。当时,部分雅虎邮箱用户发现账户中的部分邮件居然凭空消失了。一直到当年12月份,雅虎才正式对外承认有1%的雅虎邮箱账号出现了故障。这起事故直接影响了大约100万人的邮件通讯。其中,部分邮件在过了数周、数月之后,仍处于未发送状态,给使用者们带来了许多麻烦。
飓风桑迪
2012年,一场发生在美国的飓风桑迪造成了大范围电力中断。不久之后,这一情况蔓延到了纽约地区,使得布置在该地区的大量服务器都停止了工作,进而使得包括《赫芬顿邮报》、“嗡嗡喂”和掴客网在内的众多大型知名网站都瘫痪了,给居民的工作和生活造成了严重影响。
亚马逊云服务宕机
2015年9月,亚马逊的云服务器因收到来自新上线的DynamoDB功能带来的大量数据请求,导致其因过载而宕机。于是,包括Reddit、Tinder、Netflix和IMDB在内的众多流行应用和网址直接罢工了数小时。
除了Netflix,绝大多数亚马逊云服务的客户在此次“突击检查”中,都被发现毫无准备。而Netflix此前已经使用过一种名为“混沌工程”的技术来模拟类似服务中断事件的发生,使得这起事故对其影响降到了最小。
GoDaddy
域名注册服务供应商GoDaddy在2012年遭遇到了一次大规模的故障冲击,起初业内人士认为只是一些匿名黑客的捣乱。而后GoDaddy经调查发现,出现故障的原因是路由数据处理表出错。GoDaddy的服务在此事件中罢工了近6个小时,使得无数的网站和邮件收信箱都发生了瘫痪。
在此事件中,GoDaddy因为其破旧的基础设施、糟糕的技术支持和不及时的沟通,遭到了外界广泛的批评。所以,如果你想将你至关重要的商业核心数据上传到云端,那么找一个好的队友是必须的。
纳斯达克停摆
2013年8月22日,由于纳斯达克交易所的备用服务器中出现了一个严重的bug,直接导致纳斯达克停摆了3个多小时。当其恢复运作时,已经引起了市场恐慌,大量交易员涌向交易窗口,出售交易所运营商纳斯达克OMX集团的股票,导致OMX集团的股价当日一度大跌逾5%。
在这一事件过后没多久,纳斯达克立马升级了它的证券信息处理器,改进了包括架构、信息安全、故障后恢复方案和性能参数在内的多项设计。