断电是数据中心中断的常见原因,但它们不是唯一的罪魁祸首。随着企业计算环境变得越来越复杂,IT系统和网络故障导致大量数据中心宕机。
Uptime Institute一直在研究公开报道停机情况,以追踪导致意外停机的原因。在过去三年中,该公司从传统媒体或社交媒体上报道的162起中断中筛选了部分信息。在此期间,可用数据量稳步攀升;研究人员收集了2016年27次停电,2017年57次停电以及2018年78次停电的数据。
Uptime Institute的研究执行董事Andy Lawrence表示,“公共服务中断越来越频繁地成为新闻。”
Lawrence表示,“几乎每天都在世界各地发生大规模停机,这并不一定意味着中断的数量在急剧增加,但停机时间正在获得更多的关注。”他说。
来自Uptime Institute的研究的一个重要发现:电源在整体故障中的影响较小,而网络和IT系统则更为牵连。
这种转变的一个原因是,电力系统的运行比过去更加可靠,这减少了本地数据中心内部的电力故障数量。
在过去二十年中,科技行业一直专注于设计电力系统,使IT资产能够在电力系统出现故障或故障的情况下继续运行。Uptime Institute首席技术官Chris Brown表示,“供应双线IT设备的2N配电系统的出现,使得IT系统能够通过一系列单一事件继续运行。”
与此同时,日益复杂的IT环境导致更多的IT和网络相关问题。“现在数据分布在多个地方,其中一些关键依赖与网络、应用程序(架构)的方式以及数据库复制的方式。这是一个非常复杂的系统,今天扰乱该系统的可能性比过去几年要少。”Uptime Institute负责IT优化和战略的副总裁Todd Traver说。
评估数据中心中断的严重程度
为了区分可能导致业务瘫痪的停机和仅仅造成不便的中断,Uptime Institute已经提出了规模。Lawrence说,评级系统允许研究人员了解模式如何随时间变化。Uptime Institute的规模有五个层次:
●1级是可以忽略不计的停机。中断是可记录的,但对服务的影响很小或没有明显影响,也没有服务中断。
●2级的特点是最小的服务中断。服务中断,但对用户、客户或声誉的影响微乎其微。
●3级是业务重要的服务中断。它涉及客户或用户服务中断,大多数是有限的范围、持续时间或影响。对经济的影响很小,甚至没有。会产生一些声誉或合规方面的影响。
●4级是严重的业务或服务中断。涉及服务或操作的中断。其中包括一些财务损失、违规行为,声誉损害和可能的安全问题,客户损失是可能的。
●5级是关键业务或任务停机,涉及服务或运营的重大破坏。可能存在巨大的财务损失、安全问题、合规性违规、客户损失和声誉受损。
当Uptime Institute在三年期间检查所有公开报告的数据中心中断(级别1到5)时,IT系统和网络问题超出了电源作为主要原因(见图)。
当比较逐年的原因时,这种趋势尤其明显。2017年,28%的停电事故的罪魁祸首是电力。在接下来的一年中,仅有11%的断电被列为主要原因。与IT系统相关的故障保持相当一致; 在2017年和2018年分别有32%和35%的故障是由它们引起的。网络中断的主要原因显著增加:2017年19%的网络中断归咎于网络,而2018年这一比例为32%。
“这是事物之间的相互联系。这就是为什么网络中断的大幅增加会导致中断。”“这些东西不是通过一个或两个站点连接的,而是通过三个或四个或更多站点连接的。网络在“IT弹性”中扮演着越来越重要的角色。
此外,随着更多IT资源被移交给服务提供商,并且不再受使用它们的企业直接控制,IT将增加管理和操作复杂性。