今天,很多数据中心冷却系统的设计都无法承受席卷全球的夏季热浪。冷却系统往往在压力下失效,导致服务器过热,大量热门网站和应用随之崩溃或发生业务中断。例如,2023年夏季创纪录的热浪席卷了从洛杉矶到伦敦的全球重要数据中心,导致大面积的服务器过热问题。
数据中心频频“发热”,与数据中心试图降低能耗有关。
越来越热的数据中心服务器
根据麦肯锡的一份报告,数据中心服务器是能耗大户——超大型企业的数据中心的用电量相当于8万个家庭的用电量。一些监管机构和政府(包括新加坡和荷兰)正在对新建数据中心实施可持续发展标准。数据中心可持续发展正面临越来越大的压力。
许多公司的数据中心成本已经攀升至创纪录水平,其中能源成本超过了所有其他费用,而冷却费用又是最主要的能源成本,约占数据中心能耗的40%。因此,许多数据中心通过提高冷却效率来提高数据中心的盈利能力。
但是,新的经济高效的冷却技术(包括外部空气冷却)具有成本效益,但它们可能会将污染物引入数据中心基础设施并可能损坏硬件。
数据中心降低冷却成本的另一种方法是提高服务器入口温度,同时也会增加服务器CPU故障的风险。但一些数据中心为了节省冷却成本,依然选择铤而走险。
众所周知,在数据中心,服务器过热是造成停机的最主要原因,通过升高机房温度节省冷却成本的合理性值得怀疑。过热引起的服务器故障会导致意外停机,从而扰乱数据中心的运营,并可能导致网站、应用程序和在线存储出现不可预测的故障,从而造成数十亿美元的生产力损失。
在2022年的极端高温天气中,Twitter的萨克拉门托数据中心因服务器过热导致业务中断。Twitter工程副总裁CarrieFernandez在给工程师的内部备忘录中写道:“9月5日,极端天气导致Twitter萨克拉门托(SMF)数据中心停摆。这一史无前例的事件导致该数据中心的物理设备完全关闭。”
类似的事件也曾在新加坡发生。2021年新加坡的一家数据中心运营商将温度提高到接近不安全的水平,以节省冷却成本,导致数据中心服务器崩溃和大面积服务器故障。崩溃持续了近一周,导致数千名客户业务中断。
黑客发动“热攻击”那些为了降低能源成本而”高温作业“的数据中心的公司不仅面临系统崩溃风险,还会招致黑客攻击和数据泄露。
Fernadez表示,Twitter数据中心“高温中暑”启发了攻击者,越来越多的黑客开始效仿极端天气的“热攻击”,积极调整攻击策略和技术来攻击数据中心的暖通空调、电力和冗余电力系统。
攻击者的目标是通过攻击冷却系统将热能武器化,并从数据中心窃取数十亿美元的数据。从网络犯罪团体到复杂的高级持续威胁(APT)攻击团队和国家黑客组织,越来越多的攻击者将发动以热量为武器的数据中心攻击,以下是几个比较著名的案例:
佐治亚州亚特兰大的一个数据中心于2018年遭受网络攻击,导致多项城市服务关闭,包括市法院、警察局和亚特兰大哈茨菲尔德机场。网络攻击者使用SamSam勒索软件的变体,用于加密每个服务器上的数据。攻击者还渗透了数据中心的冷却系统,导致温度升至37.8摄氏度以上,损坏服务器CPU和相关集成电路设备。网络攻击者索要价值5.1万美元的比特币来解锁服务器并归还冷却系统控制权。
2019年,伊朗的一个数据中心遭受了类似的网络攻击,导致供电和冷却系统中断,服务器和支持系统迅速过热。一个反对伊朗核计划的国家使用针对工控系统的震网病毒实施了此次攻击。伊朗数据中心运营商表示,恶意软件导致数据中心的离心机失控并发生故障。
新加坡的一个数据中心于2022年7月遭到攻击,导致多个政府机构、银行和媒体的在线服务器中断。攻击者利用防火墙漏洞,导致服务器因过热而出现故障。印度尼西亚的一个黑客组织承认对这次袭击负责,声称这是对新加坡持续支持缅甸军政府的报复。
总结:在安全和可持续性中取得平衡
数据中心面临着不断扩充存储容量、减少访问延迟、控制成本以及寻找新方法来抵御网络攻击的挑战。雪上加霜的是,数据中心面临着减少环境影响和能源消耗的压力,因为数据中心约占全球用电量的1%,约占全球温室气体排放量的0.3%。
数据中心运营商正在制定新战略来实现这些具有挑战性的目标。其中包括更多地依赖可再生能源、节水冷却系统和废热回收技术来提高可持续性。
但无论是降低能耗还是提高冷却效率,数据中心都需要采用新方法和新技术在安全和可持续性之间取得平衡,例如,通过人工智能改善功耗,提高效率的同时防止服务器过热,采用具有容错电源的冗余冷却系统,并将可带来安全风险的低成本冷却方案(例如外部空气冷却)纳入数据中心网络安全计划进行管理。
总之,在数据中心的可持续性竞赛中,运营者不应牺牲基础设施安全来节省成本。没有安全,就没有可持续性。