2013年1月11日,随着百度南京数据中心的“开放日”迎来首批嘉宾访客,百度云计算硬件基础设施的神秘面纱也逐步显现。记者从嘉宾的口中以管窥豹,了解到五大核心看点,为您首度披露百度背后的数据中心硬件架构。
业内专家同时对记者表示,以前只是对百度的搜索引擎技术、软件专利比较熟悉,但没有想到,百度在硬件和软硬结合的数据中心领域,也有惊人的表现。通过百度南京数据中心的“开放日”,专家们认识到,以百度为代表的中国互联网公司,已经在互联网技术领域积累了先进技术经验,丝毫不落后于国外领跑者。可以相信,在百度等公司的推动下,中国互联网与移动互联网,必将迎来更加蓬勃发展的明天。
云数据中心:因何而生?
当越来越多的网民开始“百度一下”的时候,百度公司面临的数据处理的压力也与日俱增。据统计,百度拥有的数据总量达到上百PB,日处理量达几十PB。
PB是Petabyte的简称,它是较高级的存储单位,1PB=1024Tb(Terabyte)=1024*1024GB(Gigabyte)。1PB相当于4千亿页文本。
按照百度的日处理量几十PB,我们假设按照60PB来计算,平均分摊到15亿中国人头上,相当于每个中国人要处理16000页文本,约等于700多页厚的新华字典,要摞起来厚厚的20多本。
如此巨大的数据量,还并不是困难的全部。百度要处理的数据,往往是结构化与非结构化并存,系统数据对数据一致性要求强弱程度不同,用户对数据的访问行为存在不确定性,即在毫无征兆的情况下,对某些信息进行突发式访问等。
面对新时期的挑战,传统的数据中心的成本就显得格外高昂。相比传统数据中心功耗高、IT设备负载低的弱点,云数据中心具有天生的优势,IT负载可以灵活调配,资源可被近实时的按需调节,极大地避免了浪费。
数年前,百度技术高管已经有了决断:要加快数据中心节能降耗进程,大幅降低成本。“以单体10万台服务器的数据中心为例,PUE(电能使用效率指标)每降0.1,一年就可为百度节约上千万元的成本;如果选择能源丰富的地理位置以降低电价,百度每年还可节约千万元成本。”数据中心节能的价值不言而喻。数据将爆发增长,数据中心规模也将随之快速扩张,因而,提前进行数据中心节能设计,为百度未来数据中心降低能耗、节省成本打下了坚实的基础。
百度云计算硬件基础设施亮点之一:ARM服务器体系架构全球首次正式商用
传统以来,PC与服务器界,INTEL INSIDE的标志几乎是不可更改的习惯,但是,你知道iOS、Windows Phone、Android这3大平台的手机共通点是什么吗?那就是这些手机CPU全都是采用ARM芯片。i美股《移动处理器“小巨人”ARM》报告披露,2011年全球智能手机出货4.7亿部,ARM架构芯片占90%,功能手机出货6.6亿部,ARM架构芯片占95%,硬盘和固态驱动器出货7 亿,ARM占90%,数码相机1.5亿台,ARM占80%……
图:百度云数据中心在全球首次实现了ARM体系架构的正式商用
百度云计算硬件基础设施的第一大亮的即是在全球首次实现了ARM体系架构的正式商用,也是ARM体系首次服务于云数据中心的规模化应用。ARM 专为百度云服务设计,基于云平台将软件与CPU指令集解耦,实现了轻计算负载,高存储密度,存储密度提升了70%,TCO降低了25%。而为了达成低功耗,低成本,百度也实现了指令集变迁,即一套代码,两种平台(X86&ARM)。
百度ARM服务器拥有10个以上的发明专利,是ARM全球首个Server端规模应用,并且是服务于云数据中心的规模应用,充分彰显了百度在移动计算上的技术领先性。
百度云计算硬件基础设施亮点之二:国内首个大规模部署定制化整机柜服务器
国内第一个大规模部署自主设计的定制化整机柜服务器,该项成果承载着百度自主研发与百度数据中心相匹配的、贴近业务需求的、具备最佳TCO的整机柜服务器解决方案的重任。
图:百度定制化整机柜服务器
第一批百度自主开发的整机柜服务器(200个rack机柜)已经在南京云数据中心上线。TCO(整体拥有成本)下降10%,峰值交付效率提升10倍。
百度云计算硬件基础设施亮点之三:中国互联网业内最大万兆接入服务器集群
据 参观了百度南京云数据中心的专家透露,目前,该数据中心建成了目前国内互联网行业最大的万兆集群,集群规模超过5000个节点。基于百度自主研发的万兆 ToR交换机以及低成本低功耗接入介质,该集群相对于传统的千兆集群,服务器节点带宽提升了3-10倍,同时硬件采购成本以及TCO仅分别上升 8%和不超过5%。
另据了解,该机房使用了百度自主研发的,基于64核处理器的负载均衡系统,该系统可以为业务提供最大320G的负载均衡以及DDoS攻击防御服务,而其成本不到商用设备的10%。
百度南京云数据中心实现了两大革命性突破:不仅是国内互联网行业最大的万兆集群,也是国内首家大规模部署自研万兆交换机的数据中心。
百度云计算硬件基础设施亮点之四:SSD自主研发
如何处理海量数据的实时存储?面对百度海量数据存储需求的不断提升、软硬件架构从传统层次结构向竖井结构的变迁、On Demand定制软硬件的业界趋势,百度推动了SSD自主研发的进程。
在 系统上,百度实现了从传统层次结构向竖井结构的变迁,同时,也实现了软硬件的高度协同和融合,如硬件多通道对应用可见,应用控制数据并发应用,显式擦除无 用数据,避免性能波动;在软件上,实现了轻量级文件系统和IO系统,绕开Linux文件系统及IO协议栈,降低了访问延时和系统开销;而在硬件上,则根据 百度数据访问模式定制,写放大系数恒为1,不需要预留冗余空间,同时,实现计算和存储的融合,可以作为计算协处理器应用。
SSD自主研发为百度云数据中心带来的好处是显而易见的,性能比主流PCIE flash卡好2倍,每GB成本降低40%;性能比主流SATA SSD好6倍,每GB成本降低10%,目前在百度网页库大规模使用,已经获得3个发明专利,完成和投出2篇学术论文。
百度云计算硬件基础设施亮点之五:自建数据中心年均PUE1.37,国内最佳
PUE(Power Usage Effectiveness)是国际上通用的数据中心能源使用效率衡量指标。PUE=数据中心总设备能耗/IT 设备能耗,是一个比值,PUE越接近1表明能效水平越高。国内数据中心PUE目前平均值约为2.5,这意味着IT设备每消耗1度电,就有多达1.5度的电 被IT配套基础设施消耗掉了。若全国数据中心PUE均值从2.5降低到百度的1.37,则节能率达到45.2%,保守估计全年可节电超过35亿度。
经 过多年探索与实践,百度提出“节能从源头开始,软件、IT设备与基础设施协同”节能理念;“关注基础设施系统的每一个环节,把每一个方面做到极致”,最大 限度地降低各个系统的能耗。百度结合国内自然环境及产业条件,推动多种节能技术在自建数据中心最佳实践。如:优化供电结构,减少转换损耗;首次规模应用市 电主供、冗余电源备份方案;采用冷机变频、空调末端Ecfan等技术提高设备能效;提高供回水温度,延长免费冷却时间;采用CFD优化气流组织设计…… 最终通过运维调优,自建数据中心全年约50%时间实现完全免费冷却,年均PUE 1.37,最佳PUE 1.18,成为国内最节能、最环保的数据中心。