跳到内容
菜单
菜单
在明亮的橙色背景上,一个正在融化的黑色wi-fi符号。华盛顿特区的天际线穿过底部,淡淡的烟雾从城市里冒出来。

插图的安全技术;iStock

热穹袭击弗吉尼亚州:美国政府的初步报告

01-btn-off.gif02-btn-on.gif03-btn-off.gif

编者按:以下是一个虚构的气象事件的第二部分:热穹,于2025年夏天降落在美国弗吉尼亚州阿什本镇附近的一个地方。

去年7月,维吉尼亚州北部超过45个数据中心在卡西弗(Calcifer)热穹顶的压力下经历了部分或完全的故障,连锁反应仍在继续。虽然对发电、输电和配电的间歇性影响造成了各种各样的局部中断,但劳登和威廉王子县的40多个数据中心的损失对地方、区域、国家甚至全球都产生了影响。

以下是国家风险管理中心根据政府间事件响应小组(IRT)/事件管理小组(IMT)在热穹顶解除约四个月后进行的分析编制的一份300页报告的非机密执行摘要。请注意,它只叙述了观察到的影响的高度选择性子集。据说在完整报告及其保密附件中列入了更全面的核算。另请注意:该报告及其执行摘要因其坦率地指出了美国国土安全部(DHS)内部潜在的监管问题而引人注目。

国土安全部热穹钙化事件响应小组/事件管理小组

公开发布日期:2025年12月1日

4个月前,“热穹卡西弗”在弗吉尼亚州北部上空停滞了9天,导致气温最高达112华氏度(44摄氏度),通过仍然不稳定的通信渠道不断传来报告,计算损失的工作仍在继续。

unclassified-right.gif

在首都华盛顿特区,一些影响是明显的。例如,无数政府和商业办公室、日托所、K-12学校和大学关闭。在交通方面,地铁服务虽然部分恢复,但最多是间歇性的;泰森斯中心附近的一段绞刑架路已经融化和弯曲;杜勒斯国际机场和里根国家机场的航班分别停飞了两周和一周。即使在穹顶离开、跑道修复之后,维护系统的间歇性中断也让一些飞机停飞,票务系统故障也让人很难知道哪些DCA或Dulles航班正在运行或可用。优步和Lyft都没有恢复业务,但出租车基本未受影响,尽管数量稀少。

热穹顶造成的人员伤亡则不那么明显。根据美国联邦紧急事务管理局(FEMA)在美国能源部(DOE)的输入,由于空调使用的大幅增加,以及几个变电站的问题加剧了该地区的停电,可能是导致258名(主要是老年人)成年人和45名儿童死于热应激的因素。

数据中心中断对美国和全球业务的影响

关于另一种损害的细节开始从国土安全部的各种元素中浮现出来,这种损害不那么明显,但在许多方面更加广泛和有害。在“数据中心巷”(数据中心巷包括劳登县和威廉姆斯王子县,超过一半的互联网流量通过该地区)的大约90个数据中心中,似乎有不少于45个数据中心在持续一周的极端高温中失败或主动关闭。

由于数据中心无法正常运行,数十家基于云计算的全国性和地区性银行、各类企业、医院、州和地方政府以及至少一家移动电话运营商的IT和数据通信服务完全停止提供服务(见索引,第225页)。

其他全国性和世界性的破坏例子:

  • 标普、道琼斯和纳斯达克指数都下跌了10%,大多数国际交易所的跌幅与卡西弗事件对经济的广泛影响越来越明显。

  • 卡西弗离开后,从东海岸到西海岸以及加拿大、墨西哥、巴西、阿根廷和智利的许多自动取款机都无法使用。大约20%到30%的服务仍处于中断状态。

  • 一些地区的911系统尚未完全恢复。

  • 将业务应用程序和数据转移到云端的电力和水公用事业公司中,有很大一部分难以访问智能电表数据,而且还没有向客户发出账单。

  • 在美国国内和国外,在线商店的访问和功能是一件不确定的事情。这包括亚马逊(Amazon)、百思买(Best Buy)、Etsy和沃尔玛(Walmart)等大型零售商,以及无数中小型商店,这些商店要么依赖于大型商店的基础设施,要么在同一地点的业务受到了影响。

  • 物流公司也受到了重大打击,以至于即使你在购物车里收到了订单,许多交易也会因为DHL、联邦快递和联合包裹的持续故障而失败。考虑到大型包装供应商Uline在其IT系统上持续遇到的问题,还有其他的障碍。

美国政府的影响

美国联邦政府的运作受到了影响,许多机构也在2010年代末开始将关键应用程序和数据转移到云和同一位置的数据中心。例如,邮政服务的大规模中断,美国国税局的所得税会计和报告的中断,以及美国农业部的农场支持和灭火活动。



美国国防部(DOD)也未能幸免。一个说明性的例子是美国空军及其Cloud One云服务提供商名册,其中包括亚马逊网络服务(AWS)、谷歌云、微软Azure和甲骨文云。虽然这“四大”所谓的超大规模数据中心是世界上最具弹性、容错能力最强、过度工程化的数据中心之一,但它们并不能完全免受Calcifer的残酷条件的影响,而且它们也远不能幸免于许多其他较低级别的联邦和商业数据中心连续几天停电的连锁反应。空军的“云一号”和“平台一号”安全开发环境和运行时环境似乎在8月中旬之前都已关闭。此外,对全球任务规划至关重要的“气象企业”(Weather Enterprise)系统仍处于停用状态,迫使美国空军不得不利用各种商业服务,尽管其中一些服务也受到了影响。

对分类系统有影响吗?很难辨别,但正如独立顾问维克·维克斯(Vic Vickers)所说,通过这些数据中心传输的信息“从极其普通的到非常敏感的”。维克斯是一些地区首批大型数据中心的首席架构师,精通阿什本地区数据中心的运营。

寻找技术故障的根本原因

阿什本市及周边地区超过一半的最高吞吐量数据连接(其中许多服务于重要业务)在卡西弗号抵达后的头几天就被重新路由。其他人也尝试过,但都失败了。虽然美国和其他经济体的成本仍在计算中,但数据中心所有者和运营商的成本将很高,这还不包括可能悬而未决的诉讼。信用评级公司穆迪的分析师估计,服务器、冷却系统和电力设备的损坏评估将需要12到18个月,每个中心的成本为20亿美元。

unclassified-left.gif在法律方面国家法律评论报告称,代表数据中心所有者和运营商公司的律师事务所,数千名与他们同处一地的客户,以及可能有数十万甚至数百万名全球最终用户的云和数据中心即服务(DCAAS)客户仍处于建立诉讼的早期阶段。预计将对DCAAS业主、运营商及其工程公司违反注意义务提起重大集体诉讼。据了解,诉讼很可能会要求Calcifer及其影响是可预见的;有责任设计和运营提供数据中心服务的设施,以满足可预见的极端天气情况,如Calcifer;数据中心所有者、运营商和系统设计者违反了这一义务,造成了巨大的经济损失,现在他们要承担损害赔偿责任。

DCAAS的供应商表示,这些西装正在传递一个信息,并推动重组工作。与此同时,他们将寻求立法来支持责任保护和“安全港”,同时他们开始更新他们的设计标准和操作标准。

我们是怎么走到这一步的?这是美联储(Fed)、证券交易委员会(SEC)、联邦电信委员会(FTC)以及其他美国和国际金融和数据通信监管机构试图回答的问题。治理问题可能起到了一定的作用,作为一个由受监管的、不受监管的以及日益相互依赖的基础设施实体组成的集成拼凑物,每个实体都使用明显不同的业务模型、标准组织和监管模型进行操作。

作为先行者和长期领导者,AWS在广泛使用可用性区域(av)方面为所有其他公司设定了步伐。av本质上是一个区域内的数据中心集群,允许客户在多个位置运行应用程序的实例,以避免单点故障。虽然超出了许多预算的范围,但这种方法为关键应用程序的故障转移和备份提供了复杂的策略。



SM7

(新)通讯

订阅SM7

找出您的七大安全新闻故事,每周发送到您的收件箱,并由ASIS国际提供支持。必威电竞外围

25个AWS数据中心分布在劳登县和威廉王子县(见索引,第245页)在美国,AWS的美国东部地区是云计算、各种智能设备以及互联网本身的起点。但是,如果网络发生故障,即使是分布式可靠性计划也可能崩溃,从而中断跨公共和私有云基础设施的数据流。因此,虽然Ashburn及其附近地区的许多人使用可用区方法,但Calcifer在很大程度上破坏了那里大约一半的数据中心——有些仅仅是网络问题,而与热因素无关。

数据中心世界完全通过由私营部门正常运行时间研究所(Uptime Institute)维护的分级评级系统进行自我调节。它对数据中心的可靠性进行了1到4级的认证,这里简要地转述自Uptime自己的网站(见索引,第255页)

  • 第一层:这是基础设施的基本能力水平,以支持办公室环境和其他地方的信息技术。

  • 第二层:覆盖电源和冷却的冗余容量组件,提供更好的维护机会和对中断的安全性。

  • 第三层:使用冗余组件作为一个关键的区别,可并发维护,冗余分布路径可服务于关键环境。

  • 第四层:作为要求最高的认证级别,Tier IV中心具有多个独立且物理隔离的系统,这些系统充当冗余容量组件和分配路径。为了防止事件对两个系统造成损害,这种分离是必要的。环境不会受到计划内和计划外事件的影响。IV级数据中心也需要持续冷却以保证环境稳定。

在推销他们的可靠性时,数据中心公司经常使用数字9——3、4或5——来表示他们的服务在某一年将有多长时间无法使用。例如,5个9的可用性意味着一家公司的应用程序或网站在99.999%的时间内是正常运行的,也就是说每年大约有5分钟的停机时间。虽然这对大多数公司来说不会造成什么麻烦,但对于某些行业(例如,公用事业、电信、电子商务、金融服务、关键制造业、航空等),5分钟的停机时间可能会导致重大问题(见索引第242页)。

根据美国供暖、制冷和空调工程师协会(ASHRAE)的定义,冷却系统的大小能够处理(以前)罕见的高温事件,并被称为ASHREA 20年,似乎没有一个工程设计团队认为他们的冷却系统必须处理超过110华氏度(43摄氏度)的温度,湿球温度为90度或更高。

那些失败的公司有什么共同之处?其他人是如何渡过难关的?前者通常是老式的、风冷的Tier 1、Tier 2或Tier 3,而Tier 4——尤其是更新的Tier 4——通过交替使用完全冗余的备份,能够避免冷却和电力系统陷入瘫痪。这部分归功于运营商的技术,部分归功于4级甚至更低级别中心的远见,他们制定了最坏情况的计划和程序,并在卡西弗最坏的影响到来之前就开始将负荷转移出该地区。那些紧随最近部署冷却系统浪潮的公司也从中受益,这些冷却系统将水或乙二醇流过处理器和内存芯片本身,或者采用较新的浸入式冷却技术,将服务器和计算组件浸泡在电介质液体中。其他受益的人进行了试验,发现他们可以在比许多人以前认为的更高的服务器大厅温度下安全运行。

好消息(如果有的话)是,能够负担得起最高可靠性数据中心服务的企业受到的影响较小。其中许多是全球性银行,对它们来说,长期的混乱可能不仅会颠覆美国,还会颠覆全球经济。那些无法承受多个冗余活动区域信心的企业更有可能是地方或区域企业或政府,其中许多人至今仍在努力采用替代方法。业余无线电操作员从未像现在这样受到重视和赏识。它们提供了不可缺少的反向通道通信,这些通信曾计划用于其他类型的灾难性破坏,如地磁干扰或电磁脉冲攻击(见索引,第267页,附录B)。

想象力和监督的失败……又一次

Calcifer的中断将继续影响国土安全部投资组合中的所有关键基础设施部门和国家关键功能。来自全国各地的初步影响报告包括数据丢失和IT和通信服务中断。可能是国土安全部把大部分的风险管理注意力和精力放在了防范网络威胁上,而且,至少乍一看,这次史无前例的——尽管远非不可预见——极端天气事件让国土安全部措手不及。

本报告采访的几位前国土安全部和商业风险专家都表示,这是一个完全可预见的事件,由于三年前极端高温事件导致的数据中心故障开始堆积,因此应该引起人们的注意。这份报告的作者指出,已经有强烈的呼声要求进行调查和一份与9/11袭击一样大的报告。



在911袭击纽约和华盛顿特区,以及2003年的东北大停电之后,电网运营商的反应时间被一个小而严重的恶意软件感染减慢了,美国政府成立了一个蓝带小组,并启动了一系列主要是机密的实验,以确定其他阿喀里斯之脚——其他国家盲点,可以被较小的对手利用,造成毁灭性的影响。

从这些调查和其他一些调查(见索引,第275页)中,我们了解到,对美国电网的有针对性的网络攻击可能会造成灾难性的后果,除非电力公司迅速改善他们的网络状态。2005年的《联邦电力法案》为后来著名的北美电力可靠性公司(NERC)关键基础设施保护标准奠定了基础。它们的强制性(包括罚款以迫使行动)在很大程度上达到了预期的效果:明显更安全的电力设施。

unclassified-right.gif

电力行业经常演练应对飓风和地震等自然灾害的准备工作,并以大规模网络攻击的形式挫败国家对手的恶意意图,而信息和通信技术(ICT)行业(其中数据中心可能是最基本的要素)没有大规模演练应对网络或极端天气事件。

各种各样的业务模型,托管提供商、其租户、云提供商和最终用户客户(更不用说他们的客户)之间错综复杂的关系,使得对数据中心领域进行有意义的风险分析变得极其困难。事实上,对于美国政府的一些人来说,包括但不限于国土安全部的网络和基础设施局(CISA),这看起来最好的情况是不切实际的,最坏的情况是不可能的。因此,虽然涉及风险的季度报告提交给了SEC,但对政府风险管理人员来说基本不透明,这些事实的重要性如下:

  • 哪些客户由哪些数据中心提供商提供服务。

  • 服务水平协议以现金或积分的形式支付,用于可靠性违约或未能满足延迟保证。

  • 数据中心所有者/运营商如何为不断恶化的环境条件(例如,极端高温、干旱、洪水等)做准备。

美国证券交易委员会在很大程度上参考了联合国权威的政府间气候变化专门委员会(IPCC)气候科学家小组的第六轮会议,于2022年开始增加规则,要求企业报告其排放以及气候过渡和物理风险(见索引,第281页)。

代表数据中心所有者的一个行业组织——信息技术产业委员会(Information Technology Industry Council)在公开评论中对拟议的报告要求提出了批评(见索引,第282页):

“拟议中的‘气候相关风险’、‘转型风险’和‘气候相关机遇’的定义过于宽泛,不可行,应该缩小范围,以关注注册人的业务运营。”

援引“重大问题原则”,联邦机构的监管范围被2022年美国最高法院的裁决大大限制西弗吉尼亚诉环境保护局案。因此,SEC于2023年生效的新规定大幅缩减,特别是在报告碳排放方面。正如最初提出和最终颁布的那样,这些规则还不足以定义——更不用说强制执行——考虑到灾难性气候物理风险的数据中心可靠性要求。

考虑到为大型电力系统和最近的大型水务部门公用事业建立的有效的可靠性监管模型,监管机构(而不是SEC)可能会要求符合气候通用设计标准(GDC),并将其纳入Uptime institute注册的Tier 3和Tier 4数据中心。

在这些数据中心的设计中,GDC将特别关注气候变化,以增强对极端天气和其他气候变化加剧现象的抵御能力,包括:

  • 海平面上升(SLR)、风暴潮和下沉。

  • 不断增加的风暴频率和强度。

  • 极热和极冷的环境。

  • 干旱和其他缺水问题。

  • 永久冻土融化。

  • 对10年、50年和100年温度剖面估计的预测增加。

需要进行研究,以检查对可持续性和效率目标的不懈追求是否会产生意想不到的副作用,即降低高性能设施应对卡西弗(Calcifer)等极端事件的能力。

像电力一样,DCAAS是一种工业公用事业规模的技术,直接、即时地影响数百万人——甚至数十亿人——在卡西弗这样的灾难性故障中。DCAAS可能期望经历公共安全监管的演变,以大容量电力为明确的先例。在1965年东北大停电之后(见索引,第276页),电力部门自愿组织成一个标准组织(1968年),后来通过联邦电力法案(2015年)演变成联邦能源监管委员会(FERC)和NERC的可靠性法规。卡西弗表示,DCAAS部门应该期待一个更加加快的监管时间表。

现在是什么,下一个是什么

文明对数据中心的依赖现在已经暴露无遗。随着越来越多的实体竞相使用云计算,随着物联网(IoT)产生了数量众多的智能设备,我们怎么能看不到自己所处的脆弱位置呢?

在大大小小的公司,以及绝大多数的住宅中,固定电话几乎已经消失,取而代之的是互联网语音(VOIP)和5G蜂窝服务,两者都严重依赖于大型电信运营商呼叫交换中心。注意:交换中心是数据中心,在Ashburn有很大的存在。

具有潜在讽刺意味的是,慢慢来可能会有一些好处。在数据中心社区中,众所周知,联邦数据中心不受竞争、市场驱动的可靠性和延迟压力的影响,在性能方面与商业数据中心相比差。但事实很可能证明,过时的数据中心在某些方面可能更有弹性,当涉及到在它们设计的环境参数的边缘运行时。事实上,不是100%的云可能是最好的防御,这是大容量电力系统业务的人们一直在说的,大致类似于他们对过度依赖自动化电网控制系统所表达的警告(参见索引,第283页)。

另一方面,一些性能最高但功耗使用效率(PUE)分数最低的数据中心可能是最先出现故障的。还需要进行更多的研究,以确定对可持续性和效率目标的不懈追求是否会产生意想不到的副作用,即降低高性能设施经受卡西弗这样极端事件的能力。

在这一事件的所有不确定性中,可能需要数年时间才能完全显现出来,但有一件事是肯定的,即数据中心及其所有者和运营商的可靠性监管现在应该完全摆在桌面上。为了国家的利益,将需要相当程度的透明度。虽然监管在业界没有多少支持者,但它可以指望实现的一件事是,为这些公司内部的可靠性倡导者提供他们需要进行重大改进的商业案例。我们在能量方面看到了它。如果我们在数据中心看到类似甚至更严格的规定,请不要感到惊讶。

最后一点:我们还没有看到民族国家行为者试图利用这种情况对美国造成更大的伤害。美国政府和国防部将继续密切关注事态发展,并准备在必要时作出反应。

场景二结束

这是Security Technology将于2022年12月发布的三部分系列文章的第二部分,阐述了弗吉尼亚州阿什本数据中心巷虚构的热穹顶的后果,以及该事件的连锁反应。阅读本系列的第一部分:《热穹袭击弗吉尼亚:一个数据中心的故事》

Andy Bochman是爱达荷国家实验室的高级电网战略家和捍卫者,在那里他为美国和国际政府和行业领袖提供关于电网安全和气候弹性交叉主题的战略指导。他还是大西洋理事会全球能源中心的非常驻高级研究员。

特蕾西·施塔特是一位自由科学和技术作家,曾发表在科学美国人,IEEE频谱,而且麻省理工科技评论。

特别感谢编辑和SME事实核查员:Jamie Richards, Kelly Wilson, Matt Wombacher, Lynn Schloesser, Chris Payne, Tom Santucci, Peter Behr和Tim Roxey。

©2022 Andy Bochman

arrow_upward