PUE值1.1已经令人难以置信,但百度云计算(阳泉)中心还能做到更低!

“你们还有什么问题吗?”

9月初,在百度云计算(阳泉)中心的会议室里,百度云计算(阳泉)中心负责人,百度系统部高级经理顾鹏微笑着向媒体朋友们投过来关切但充满自信的目光。

PUE值1.10,你信,还是不信?

三周前,新华三在呼伦贝尔举行“互联网夏季论坛”,百度云一名管理人员在主题演讲中对与会者说,公司位于阳泉的数据中心单模组PUE值已经达到了1.1,引着不小的轰动,而笔者当时发布微信朋友圈后,朋友们也纷纷表示怀疑甚至不信任。

2014年,绿色网格发布的国际数据中心PUE能效值为1.7,目前国内新建的数据中心大多为1.73,少数实现了1.4~1.5,而百度云计算(阳泉)中心竟然能达到单模组1.10。

凭什么?

百度云计算(阳泉)中心负责人,百度系统部高级经理顾鹏

借由“数字中国万里行”这个机会,笔者也抱着严重不相信的的态度,走进了这座数据中心。

眼见为实。在全面了解之后才发现,包括笔者在内的所有人的疑惑,被彻底地打消了。

在刚刚过去的整整一个上午,顾鹏先是向这支风尘仆仆的团队对位于阳泉的这座数据中心的基本情况做了介绍,而后又花了将近4个小时陪同大家参观了数据中心所有模组及配电、制冷等重要场所。

此刻,面对顾鹏探询的目光,除了专家级的资深媒体同行海峰、大兔,大名鼎鼎的狒哥也保持了半分钟的沉默。

唯一获得全国五一劳动奖的数据中心

百度云计算(阳泉)中心坐落于山西省阳泉市开发区,园区占地面积360亩,由八个模组楼,一个ECC综合楼、两个柴发楼以及总调仓库、配套的餐饮楼、活动室以及休息区等组成,整体建筑面积达到12万平米,共分四期建设,于2012年启动,设计装机容量为12万台,其设计标准采用T3+级,2014年9月第一期建成投入运行至今已经1500多天,今年最后一期完成后将全部投入运营,投用后实际装机容量将达到16万台,成为亚洲规模最大的数据中心之一

百度云计算阳泉中心的效果图。其设计灵感来源于百度的logo(形似熊掌)

据介绍,阳泉数据中心承载了百度的搜索、地图、网盘、人工智能、智能云、自动驾驶技术等业务海量数据的处理,每天处理的数据为数百PB,相当于成千上万国家图书馆的容量。

2015年,阳泉数据中心获得了国内首家的运行和设计双五A认证、数据中心年度的能效奖和中国企业领导力奖;2016年获得了山西省的五一劳动奖状;AHU、整机柜、OCU和市电+UPS/HVDC供电架构入选工信部的先进技术名录,风电、光伏和污水回用等绿色节能技术应用,也使百度成为了唯一一家获得了2017年国际“碳金奖-社会公民奖”的互联网企业。

2017年,阳泉数据中心获得了中华总工会“全国五一劳动奖状”,成为目前国内数据中心唯一获得过此项大奖的数据中心。

阳泉数据中心2017年PUE值为1.1,意味着园区全部投产以后,数据中心年节约用电量为2.5亿度,相当于13万户家庭全年用电量的总和。

在六年的建设和运营中,阳泉数据中心积累了400多项国际和国内的专利,如采用HVDC(高压直流) Offline与锂电池机柜,供电效率达到99.5%;OCU、AHU、水冷精密空调等多种空调末端技术并行应用,同时将机房送风温度提升到27℃,搭配百度高温服务器,全年自然冷却时间延长到96%以上;光伏和风力发电相结合,每年实现CO2减排达2.6万吨,污水回收利用,年节约用水48万吨。

阳泉数据中心的创新与实践

数据中心主要由电气系统、暖通系统、监控及运维管理系统组成。

在电气架构方面,传统的数据中心多是采用双路UPS的设计方式,其效率可以达到90%。

百度率先于2010年在国内使用了“市电+UPS”这种当时国内最先进的架构,其效率可达到95%,而阳泉数据中心总共采用了四种架构,即“市电+UPS”、“市电+UPS ECO”、“市电+HVDC在线”以及“市电+HVDC离线”的形式,其中“市电+HVDC离线”是世界首例采用这种供电架构,其供电效率由原来的双路UPS的90%一跃提升到99.5%。

也就是说,按传统双路UPS方式,100度电可能有10度电由UPS损耗掉了,但现在阳泉数据中心做到了只有0.5度电被损耗。可以说,“市电+HVDC离线”是做到了极致。

在暖通架构方面,在阳泉数据中心除了采用CRAH(水冷精密空调),还采用了高温服务器及零功耗新型空调末端,充分利用了天然的冷源,合理化应用机械制冷、预冷和自然冷却,全年免费冷却效率达到96%以上,相当于每年用冷机制冷的时间只有两周约300个小时。

另外,架空地板这种传统的架构在阳泉数据中心已经被摒弃,取而代之的是无架空地板与侧送风相结合的方式,在保证气流组织最优、冷量高效输送的同时,与整机柜服务器协同,日峰值交付服务器能力达1万台,交付效率提升20倍。采用百度自研的OCU(顶置冷却单元)冷却技术空调末端与预制化模块技术相结合,冷却模块垂直安装在机架上方,空调末端无风扇、零功耗,利用空气对流原理,可以抽走“热通道”的热空气的同时,还可以送出冷空气给“冷通道”;AHU(Air Handle Unit)风墙冷却技术,通过与高温耐腐蚀服务器配合,采用全新气流组织方案,解决了空气污染及腐蚀难题;IDEC即间接风侧制冷,抽取室内空气和部分新风以控制出风温度和风量来维持室内温度。

AHU(Air Handle Unit)风墙冷却技术

顾鹏:电气架构与空调末端的改变,结合高温服务器和相应的调优政策,就是阳泉数据中心PUE值低至1.1的主要原因。

在监控与运维方面,多数数据中心的运营都具备有一定的自动化能力,但是阳泉数据中心已经在向智能化进行转变,比如巡检全部采用无纸化智能巡检,将相关数据上传到远端电脑,专家系统通过对现场运行数据分析来保障系统稳定性将AI技术引入了数据中心后,通过建立数据中心深度学习模型,如冷水机组三种模式的运行,将根据室外天气的湿度、温度和负荷,自动完成制冷模式、预冷模式或节约模式的切换,并且根据设备的总体运行时间提示维修或更新,智能预警可能出现的故障,同时根据设备的负载量自动调配,实现负载均衡。

“结合AI的智能化是数据中心后续运营的方向,最终将实现无人值守。”顾鹏说。

阳泉数据中心还有如下重点创新的内容:
一是锂电池机柜。作为国内首批内置式的锂电池服务器在百度阳泉成功上线,进一步优化了供电的架构,在配电系统彻底的模块化的同时,去除了UPS和铅酸电池的配置,实现了机电、IT的一体化,供电效率达到了99.5%,节省的机房空间达到25%。

锂电池机柜

这也是阳泉数据中心装机量从12万台扩升至16万台的根本原因。

二是水冷背板。无风扇的零功耗模块化的设计,全面支持天蝎整机柜服务器,就近冷却、弹性部署,最直接地接近热源服务器。

水冷背板机柜

三是间接蒸发冷却的模块化设计方式。除了高度的自动化,交付效率比原先冷水系统提升50%,运维效率提升了60%,节水达到70%。

四是冷板式液体冷却方式。针对高功率密度能效提升约50%,TCO降低了30%。全球首例采用液冷GPU集群在百度成功上线,化解了远高于传统计算方式高能耗的问题,为后续的智能化和AI提供更大的便利和应用无法想象的空间。

冷板式液体冷却机柜

绿色节能

节能环保在数据中心,是一个永恒的话题。阳泉数据中心已经将风电、太阳能等各种绿色能源资源的利用实现了最大化。

例如,阳泉数据中心在模组楼顶的剩余空间安装了太阳能电池板,光伏发电即发即用,成为国内首个应用光伏发电的数据中心。


模组楼顶剩余空间安装的太阳能电池板

2017年,阳泉数据中心利用太阳能及风力发电总共将近2600万度,占比全年用电量的16%,预计2018年太阳能及风电能将达到5500万度,占比可达到23%以上,成为节能减排的典型示范。

在阳泉数据中心,除了电源,消耗最大的就是水资源。因为机房热量要靠冷塔蒸发传递到室外,蒸发掉大量的水份,加上要清除沉淀到冷塔和管路中水中的钙镁离子等各种杂质,每天的耗水达到上千吨。阳泉数据中心对排污水进行了收集并通过酸碱中和,稀释其中的钙镁离子,对污水再回收利用,数据中心全部设施投产以后,每年回收水将达到48万吨水的量。

据初步统计,阳泉数据中心全年CO2减排2.6万吨,清洁能源占全年用电的23%,相当于142万棵树一年CO2的吸收量,系统节水率44.6%,数据中心全部设施投产以后,每年回收水将达到48万吨水的量,相当于4000多户居民一年的用水量。

在整机柜方面,阳泉数据中心将近96%服务器采用了百度北极2.0整机柜服务器,北极2.0采用了共享电源和风扇的架构,供电实现标准化、模块化、一体化,总成本降低15%左右,值得一提的是自研服务器平均每台耗电量比普通的服务器下降12%,交付率反而提升了20倍。

机房全景

整机柜、GPU及AI控制

百度应用GPU等异构计算,引入深度的学习和异构的计算集群,成为百度大脑的动力引擎。阳泉数据中心GPU集群承载了公司几乎所有AI业务,融入先进设计理念和语音、图像、搜索、无人车、加速计算等一流技术,具有高性能,高效率、低功耗的特点,保证了AI业务长期稳定,高效运行。

1.1不是最低,这个冬天,还会有更好的消息传出

一名工作人员告诉我们,人们所知晓的PUE值1.1,那还是2016年的数据。

笔者在ECC控制中心的大屏上看到有一模组的PUE实时值是1.07。这一模组囊括了百度所有最先进的架构,如高压直流,空调末端使用OCU及水冷背板。而在9月份访谈期间,室外温度超过27度;在即将到来的11月至来年的3月期间,实时PUE还将会更低!

离开阳泉之前,笔者又发了一条微信:“年均PUE值为1.11,真相大白!占地12万平米的百度云计算(阳泉)中心(最优PUE1.07)。先进的电气架构,用电效率超过99.5%,定制化的高温服务器,风电、太阳能(首家采用)等自然能量供应超过整体供电量的23%,模块化的顶置空调、首家采用锂电机柜、将AI引入数据中心……节省机房面积25%,年节电2.5亿度、节水48万吨。真是不看不知道!”

这次,不少朋友纷纷点下了珍贵的“赞”。笔者相信,此文的发布,还将会赢得更多的认同和点赞。