超大规模数据中心究竟有何不同?

本文是作者Mary Branscombe在参观完微软公司位于华盛顿州昆西的超大规模数据中心之后所撰写的一篇手记,从文中,我们可以看出云数据中心在过去的十年中究竟走了多远。

一处超大规模的云数据中心看起来与一般的企业级数据中心是不同的,甚至与一家大型的托管服务提供商也是不同的。他们所面临的问题不同于您企业数据中心所面临的问题。而您企业数据中心所采用的各种方法:包括从如何选择一处数据中心站点,到如何管理电源,再到服务器的运行使用寿命该有多久都与您企业的数据中心是不同的。

如果您企业正在考虑采用一款混合云服务,其涉及到运行Azure堆栈或一款超融合的基础设施,那么,如下的几大重要的差异是您企业亟待重点考虑的:

当硬盘驱动器出现故障时,几乎总是缘于振动的问题。一处云数据中心是在如此精心设计的系统中运行的,因此其发生故障的主要原因是湿度。

您需要关心维护性问题,并定期计划仔细的修补,逐一集群或乃至逐一服务器的实施维护性修补;一处云数据中心重视自我管理,自动化的自愈,其被以标记(stamp)为单位,可能至少管理着800台服务器。

虚拟化的工作负载得以充分利用处理器;他们在一处云数据标记(data stamp)的800台服务器中保留了20台,用于运行管理软件。

随着服务器的老化,您企业可以在其之上运行要求不太高的工作负载;一处云数据中心所采购的服务器是具备机架和堆栈所同时一起交付的,通常位于集装箱容器内,在三到五年后,它们将被整体更换为具有较低运营成本的新的服务器机架。

您关心电源和冷却的成本,而对于电力资源的获得可能会妨碍您企业扩展工作负载;一处云数据中心所选择的地理位置较为特别,因为该地理位置将有助于降低冷却成本,其将会拥有一条直接来自水力发电厂的电力供应线,并能够支持数据中心规模的不断扩张 甚至能够作为数据中心迁移到采用新一代硬件和一种新的数据中心布局方式的机会。

您可能会担心从两家不同的供应商连接到您的数据中心的问题;而一处云数据中心则投资于其自己的水下数据电缆。

然后还有规模方面的问题……

我们必须持续的扩展我们的网络,一直2020年。 微软数据中心高级主管Rick Bakken告诉我们说。

即使物理基础设施的规模也是相当巨大的:微软最新的华盛顿昆西数据中心设施正在建设中,该数据中心拥有24000公里长的网络电缆,这一长度几乎足以环绕地球,而其位于新加坡的Azure数据中心所拥有的网络电缆长度则是前者的两倍;以及足够的混凝土,其足以能够铺设从伦敦到巴黎的人行道。

Azure数据中心的零距离探访

零距离探访一处像昆西这样的超大规模数据中心的内部是让那些公共云服务的安全性怀疑论者们闭嘴的一种最快最有效的方式。而具有讽刺意味的是,正是基于安全性的考虑,才让我们对于这处数据中心的亲历探访变得相当困难。甚至不能派您企业的审核团队来检查其设备。

最近,微软公司为CIO.com网站的记者们提供了一次零距离探访其位于华盛顿州昆西数据中心的机会,而作为十年来首批被批准允许进入其Azure数据中心内部一探究竟的记者,我们在参观全程过程中均受到相当严格的限制:禁止拍照或录像、不提供任何可能会危及设备安全的信息(故而本文中的图像照片均由微软公司所提供)。

微软华盛顿昆西数据中心的外面是高原平原,每年拥有超过300天的日照时间,每年只有八英寸降雨(和一英尺的降雪),在一年大部分时间平均温度为50华氏度,夏季中的两三个星期温度最高值可达80华氏度。该地区干旱的气候非常适合当地的水果种植,也使得数据中心的冷却非常有效。而附近的哥伦比亚河泽产生了大量的电力,这就是为什么微软在2006年选择了昆西作为数据中心站点的原因(戴尔和雅虎,以及数据中心提供商如Vantage和Sabey也将其数据中心选址在此)。

微软位于华盛顿昆西的数据中心鸟瞰图

这些建筑是匿名的,没有树立微软的标志。最新的建筑设施已经在一个凸起的护堤上安装了一个防护栅栏,所以您根本不能开车进入,也就无法看到其是如何布局的了(当然如果您曾经参观过微软的园区,您会发现个别建筑的标志看起来很熟悉;这些建筑没有打上微软的名称或logo,通过围栏篱笆您根本看不见他们)。

内部的安全措施是相当严格的:普通员工进出要通过生物识别和双门 而且对那些员工都会进行背景检查,涉及指纹和查看是否有警方备案记录。即使是运输和接收部门,其拥有一个巨大的,天花板高的货架,正如您可以想象的如同在商店仓库一样,其安装有不能同时打开的内外门。更多的生物识别锁保护个别房间(旧建筑物中采用手持式安检仪,新的建筑设施中则采用指纹扫描器)。

在建筑物内,您会遇到各种不同的检查站点,相关的警卫安保人员会用扫描棒来确保您为将任何禁止的东西带入或带出。微软采用了Rick Bakken所谓的 白手套移除(white glove removal) 的过程中,拆除旧设备并对其进行回收 以确保没有任何一款硬盘能够离开数据中心操作建筑大楼。如果这些硬盘被用来存储重要级别较低的业务数据,那么将被使于内部循环,而如果他们储存的是重要级别较高的业务数据(一些服务器机架将被标记为HBI),那么这类硬盘将被送往粉碎机。粉碎后, 其碎块颗粒大小还没有一颗BB子弹大。

更少的工作人员和维护

您企业的数据中心绝对没有这么长的走廊,以至于操作人员如若要去到另一处遥远的操作房间的话还需要借助踢滑板车。而即使企业级的数据中心的规模比超大规模云数据中心要小得多,但您数据中心所雇用的员工数量却可能要多得多。Azure数据中心的核心运营团队成员规模要远远小于您所想象的(像微软所说的那样,基于数据中心的规模,一般精确到十到几十人不等),尽管他们拥有前者三倍的安保警卫人员的数量,但这些核心运营团队成员则拥有非常不同的技能。

他们不更换故障的网卡和硬盘驱动器,更新固件或计划维护窗口。他们正在运行自动化,并忽略硬件故障,因为这些是自动处理的。

发生中断、人为错误、软件有bug漏洞。 Bakken说, 我们会让其自愈,如果有什么破坏事件发生,我只需要知道其发生了,但我们有一套保护和治愈系统来规定和意外突发事件。至于OpEx运营成本,对于较新的数据中心而言,我们会更换冷却系统中的过滤器,这是我所拥有的唯一维护。我们已经转向了一种弹性配置,使得我在每个箱子中放置的服务器比我们所需要的要更多,故而如果一台服务器被破坏,我们只需将其关闭离开,等待直到下一个更新周期的到来。

从数据中心建筑到容器 再回归

对于数据中心架构而言,这种更新周期通常也意味着巨大的变化。当您为数据中心采购服务器时,您可以从像戴尔或惠普这样的OEM厂商处购买服务器。微软以前就是这样做的,一次性的大量购买,甚至是一次一个容器。现在,该公司正在设计自己的服务器,以便以更低的成本精确的满足其实际所需,从ODM订购,并将服务器设计贡献给开放计算项目(OCP)。

微软设计的服务器机架行

昆西数据中心的各种设施可以说是这些变化的一个缩影。微软将这里最老的两幢建筑称为第二代数据中心,其看起来像一处传统的数据中心,但是与普通的企业数据中心不同,并不是挤满机架和服务器。随着微软在这里转换到采用新的OCP服务器,路由器和负载均衡器消失了,以便有利于虚拟化网络,而该操作房间过去曾经有18行机架,而现在只有8行,因为其计算机和功率密度非常高。 我们的功率预算不变,但却安置的服务器的数量却大大增多了;由于功率预算的限制,使得机架密度更高。 Bakken解释说。

热通道(高达106华氏度)被绝缘的工业制冷区域的透明塑料面板隔离。该屋顶最近被喷涂成白色,以提高电力效率 这是一个特别值得强调的细节,其根源可追溯到十年前,彼时,Bakken还在史蒂夫 鲍尔默的容量能力规划团队工作: 我们认识到,我们正在建设真正大型的空调;我们从事的是工业空调业务。

解决方案并不是采用AC交流电源。微软能够大量减少其所需的冷却功率首先是通过转换到采用用外部空气冷却的方法,然后再采用绝热冷却,其工作原理与 沼泽冷却器 相同,即将水喷射到风扇前面的空气中,以保持操作机房空间更凉爽,因为热量会蒸发水,而不会加热空气。

降低冷却成本

如果您企业在过去几年中采用了最新设计来构建您的数据中心,那么您数据中心的电力使用效率(PUE)值可能为1.6或甚至1.4,就像微软在2007年和2008年建立的第2代数据中心一样。这意味着您只使用了一个额外的40%至60%的功率来运行服务器和网络、降低您不间断电源(UPS)的的电池电压,而大多则用于保持服务器冷却。

如果您是在十年前建立了您企业的数据中心,或者您使用了一种更传统的设计,那么您企业将使用两到三倍实际上用于运行您的工作负载的功率来进行冷却。

微软在思考方式方面的变化导致了该公司在2011年建成了其第四代集装箱式数据中心(该公司采用了ITPACs为其命名),平时大部分时间使用外部空气冷却,而只在最热的日子里使用绝热冷却,使PUE值下降到1.2或1.12。

而即将在昆西开设的第五代数据中心设施的PUE值为1.1(其在一年中的某些时间段下降得更低)。

ITPAC容器

ITPAC设计将几千台服务器集成到一款容器中。微软公司向两家大型服务器OEM厂商提出了规格要求,希望他们能够通过挂接一根440v的电源线和一根网络电缆来提供一个可插入的容器。两家公司提出了截然不同的设计:一个适合标准的集装箱,其拥有有独立的冷热通道;另一个是具有单一的、共享的热通道的定制pod。

ITPAC设计显示了百叶窗屏

这两种设计都是用起重机把它们提升到厚的混凝土基座上,然后微软公司在上面建了一个屋顶。第二天,四英尺的雪飘进了建筑物。这并不会对服务器的运行造成任何问题,但人员在里面很难行走,所以他们添加了百叶窗屏来挡雪,并让外面的冷空气得以进入。

空气通过多组过滤器,以便去除灰尘和污垢,而在最热的日子里,室外空气在被吹过容器之前,会被喷水冷却。

后期版本的ITPAC设施完全免除了屋顶和墙壁,通过在集装箱下面运行它们或将它们埋在混凝土下来保护电力和网络电缆。

不同于企业的数据中心,后者具有发电机和飞轮来保持电力供应,该ITPAC设计不连接到备用发电机。整个数据中心设施有多处电力来源,但如果其失去电力供应,ITPAC上运行的工作负载将自动切换到其他数据中心。其故障也不是您企业的典型的故障。Bakken称其为 全球分布式地理弹性系统 它不是一个主要和次要的,它是一个全球性的网格。

整个建筑是一个容器

微软刚刚完成建设的第五代数据中心设施是昆西数据中心站点上所有其他数据中心设施规模大小的三倍,其回归到了刷新建筑物,而不是堆叠的容器,但它们看起来并不像您所熟悉的数据中心。没有高架地板;只是ITPAC在同一水泥板上。高机架内预先填充了微软OCP设计的服务器,并用送货卡车安装到位。他们连接到一个公共信号背板, 所以他们共享冷却,网络和电源。 Bakken说。这使得微软可以灵活地应对不同的服务器类型或不同的数据中心架构。

微软第5代数据中心设施

在建筑物的一侧,风扇吹空气冷却,由一个封闭的循环水系统使用循环水(甚至收集在数据中心的雨水),其由外部空气冷却,而不是一个冷水机组。发电机补充电力供应线,在大坝运行从数据中心现场收集回收的废水的甲烷。微软也在研究薄膜太阳能,甚至研究天然气的燃料电池,以便可以用在机架上。

即使是依靠其来供应一般的服务器机房,也还有很长的一段路要走,更何况是这种超大规模的云数据中心,只有两三家云提供商可以整合在一起。当然,其并不是微软唯一的数据中心。

微软在全球范围内运营着100多处数据中心,提供200种云服务,并为超过10亿的客户和超过2000万家企业处理云工作负载。 我所提供的处理服务包括了从Xbox到Office 365和Azure在内的一切服务。 Bakken自豪的说。而他所面临的客户的要求则更高。 在微软,唯一可以运行生产工作负载的地方便是我的其中一处数据中心。

本文作者Mary Branscombe是一位自由撰稿人,在过去的二十年里,他所撰写的文章一直致力于覆盖技术领域,而且他所撰写的文章包括了从编程语言、Windows和Office的早期版本、以及消费类电子产品和家庭娱乐类电子产品。