百度陈尚义:绿色数据中心应对大数据时代

7月26日,在2012中国通信行业数据中心峰会上,国内知名搜索引擎服务企业百度公司技术总监陈尚义,与嘉宾们分享了百度在数据中心绿色运行上的实践经验。其中关于互联网企业数据中心如何节能高效方面,百度采用的统一基础架构平台,在节能降耗以及资源动态调度方面引起了听众们的关注。记者也利用会见期间采访了陈尚义。

百度在世界互联网企业中均处于领先地位,来自于其优秀的底层IT建设团队

陈尚义向记者谈到,百度每天面对海量的大数据,其系统产生的海量日志达到百PB级,需要数万台服务器存储。并且随着网页资源增加和搜索质量提升,网页和超链数据将随之急剧增加。因此百度数据呈现海量、高增长,结构化和非结构化并存,记录大小差距巨大,数据一致性强弱不一,数据冷热不均,突发事件常导致数据访问波峰等特点。

针对以上问题,百度通过自建数据中心,开发了自己的大数据存储系统,并使用了多项新技术。例如,开发网页更新模型、优化数据存储和访问、定制Flash、多副本存储、自主知识产权的复制协议、数据分治策略、采用拆片存储技术、运用局部更新大记录的策略和三层数据存储模型等。

“可以说,数据中心是百度业务的载体,它支撑着海量数据存储、云平台和搜索社区等,所以百度更加关注建设云数据中心,用云的核心驱动力来支撑业务规模发展。我们自建的数据中心规模目前达到1000PB,计算能力是100万CPU核。”陈尚义表示,“百度的单体十万台服务器的数据中心,PUE每降低0.1,一年就可为百度节省上千万的成本。所以,打造自我的绿色高效数据中心,大数据时代将很好应对节能环保、低碳的要求。”

传统数据中心与百度的云计算数据中心在性能上的差异

百度绿色数据中心的主要设计理念

百度数据中心是如何“瘦身”高效的?陈尚义介绍,百度绿色数据中心设计理念是绿色为整体,从源头开始节能。首先解决的是设备能耗问题,其中包括IT设备和辅助设备能耗问题。其次是单机的定制化量体裁衣,采用集中散热、集中供电、高效部件等方法。同时,采用SSD解决服务器的瓶颈,降低服务器数量,节约了30%的服务器。另外,百度在数据中心工作上,采取白天以商业业务为主、数据处理为辅,夜晚侧重数据处理为主的原则,利用早晚的用户使用习惯,来很好分配大数据量的工作时间,进而实现了节能高效。

陈尚义最后表示,百度未来仍将一如既往地引领大数据存储和处理的发展方向。