网络问题导致更多的数据中心中断

IT168 中字

深入研究数据中心停机时间

Uptime Institute深入研究了数据中心中断的具体原因。在网络方面,中断的常见原因包括:

●光纤在数据中心外部切断,路由选择不足。

●主交换机间歇性故障,未部署辅助路由器。

●主交换机故障,没有备份。

●维护期间的流量配置不正确。

●路由器和软件定义的网络配置错误。

●对非备份单个组件(如交换机和路由器)断电。

错误配置的路由器和软件定义的网络是“常见的网络问题。他们应该通过测试检测到。”Traver说。

Traver说,当谈到光纤切割时,公司往往不知道他们有单点故障。他们可能有两个独立的供应商,但他们不知道,光纤在同一个沟渠中运行。他们没有做出适当的尽职调查来确定这一点。

当IT是罪魁祸首时,列举的一些原因包括:

●管理不善的升级,缺乏软件级别的测试。

●大型磁盘驱动器或存储区域网络的故障和后续数据损坏。这可能是由硬件故障引起的,由于配置或编程错误而加剧。

●负载平衡或流量管理系统中的同步或编程错误失败。

●错误编程的故障/同步或灾难恢复系统。

●对没有备份的单个组件(例如服务器或大型磁盘驱动器)断电。

谈到负载均衡/流量管理问题,Lawrence表示,当公司尝试更广泛地分发IT资源时,可能会出现编程错误和同步问题。“减少对单一网站的依赖通常是更广泛战略的一部分; 就像你挤压气球一样,问题突然出现在其他地方。”

Traver补充说,当公司“没有真正规划所有平台的应用程序和数据,或者他们没有经常测试它们时,就会出现问题”。

当电源成为主要问题时,一些主要的停电原因包括:

●雷击,导致断电。备份软件/配置失败。

●转换开关出现间歇性故障,导致无法启动发电机,或转移到第二个数据中心。

●UPS故障和无法转移到二级系统。

●操作错误,关闭或配置错误。

●公用电力损失以及发电机或UPS的后续故障。

●电涌引起的IT设备损坏。

这些都是数据中心的工程师们几十年来一直在努力解决的问题——如何围绕这些问题进行设计,如何用他们的设计减轻压力。

Traver说,总的来说,公司需要更加关注数据中心的弹性。“了解您的系统是如何设计的。完全理解 - 所有相互依赖。并且也知道它是如何失败的,并为失败做好计划。这是我认为缺少的那块。”他说。

“设备越来越好,管理越来越好,经验越来越丰富。它正在成为一个更成熟的行业。”Lawrence总结道,“但即便如此,断电仍然是一个非常重要和昂贵的问题。”

声明: 本文系OFweek根据授权转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存