2012年5月23日-25日,第四届中国云计算大会在北京国家会议中心隆重举行,会议围绕“云计算实践”这一主题,探讨云计算在中国的发展与实践,展示国内外云计算最新的研究成果和应用。
百度系统部高级经理张诚介绍了,数据中心对于百度云计算起到了什么样的作用。
云计算已经成为,IT业发展的必然趋势。而云计算对于搜索引擎来说是最自然不过,或者说最顺理成章应该应用的一项技术。在国内百度做为最权威的搜索引擎公司,每天需要处理几PB的数据,于是对于云计算来说数据中心有着密不可分的联系。
数据中心面临的一些问题。
第一个是规模太大,我们会看到当你一个单的节点数据中心超过10万台的时候,你的日处理数据10P级的时候,对你数据中心的挑战是非常大的。
第二个是我们自己要进行标准化和模块化的设计,由于这个规模太大了,我不可能一次性启用10万台,需要用模块化启用。
第三个是通过高功率的密度,降低功耗,使得总体运行TCO成本最佳。
在供电系统上,其实最主要的目的是减少转换的功耗,大家知道大部分传统的数据中心都是两路进来,通过UPS,大概功耗是10个损坏损失。我们采用了UPS ECO模式运行。用HVDC offline供电,出现问题的时候高压直流设备供电。可能会减少5-6个转换效率。空调系统上,免费冷却,气流组织优化,数据中心大部分电是用来制冷的,如果能提高工作温度,像25度提高到30度,甚至更高,你的数据中心就不需要这么多的制冷量,这样的话就能降低电源的消耗。但同时带来一个问题,你的服务器设计一定要耐高温,要配合你的服务器定制。另外现在业界比较领先的水冷背板,引到服务器内部的芯片级冷却技术。
大规模的数据中心在建设过程当中,特别是基础建设过程当中会面临很多的问题。比如自然环境的问题,大家有可能去过美国的数据中心,为什么Facebook可以建这么低的数据中心,那个地方的空气环境比较好,温度和湿度都很好,都是非常适合的,在国内找这样的地方相对来说不是那么容易,因为他很难让多个因素都结合在一起。比如有的地方湿度和温度都很好,空气质量也很好,但是面临着基础设施条件比较匮乏,总供电能力不足,以及运营商的传输,光网络并不好。或者光网络由于当地人才资源短缺,在一个偏远地区,一个干线网络断了,上海华东这个地方一个光缆掉了,运营商对他的抢修和修复时间是完全不一样的。另外一个新的技术存在产业上下游配套的问题。
在以前我们无论是做数据中心基础建设,做网络,做服务器的时候,每个层面都在考虑自己的需求。比如数据中心会考虑我的配电系统怎么样,我的制冷怎么样,我的空气组织怎么样,我一定要做到万无一失,上层怎么做我不管。同样,服务器做的时候也是同样的考虑。今天做云计算,当我们把存储和计算资源都集中起来之后,我们完全可以通盘考虑这样的事情,我们的数据中心,我们的服务器,我们的网络,还有软件系统,它实际上是一个整体,如果这个整体能够配合起来,我们在任何一个环节可能并不需要,或者一定不需要那么多的冗余,那么多的资源的浪费。这样的话不但提高效率,而且能够大幅的降低成本。也就是说,在每个层面都有自己可以工作的事情,举一个例子,如果我的网络冗余,我的服务做到好的部署,同样做到数据不丢失和无损失。如果我上层服务器设计非常合理的话,我是耐高温的服务器,我的数据中心就不需要这么大的功耗把我的电力能耗都放到制冷上面,你通盘考虑的时候就会发现这件事情变得非常简单。
最后,不断反复反复强调我们的观点。一定是你的软件要去适应硬件,一个出色的软件架构师,或者是一个出色的硬件架构师,是非常清楚的了解什么是当今主流的非常通用的硬件架构基础上进行他的系统和软件设计。当你通过软件来进行系统容错的时候你会发现你的平台变得非常非常可移植,非常非常好扩展。
网络和系统平台的一些思考和实践。
一提到网络很多人可能会想到网络的话运营商一定是最好的,运营商一定是最强和设计最好的,但是互联网的数据中心和运营商的传统网络是不一样的。因为大家可以看到,运营商在从事云计算数据中心的时候其实也是不同以往建网络的思路。你可以看到,他的网络是多技术的,他可以去卖给用户,你能看到大部分传统电信运营商在传统阶段,大部分是带宽的收入,为什么?因为他要使自己的网络很火,他要做国际的VP业务,他要把带宽带给用户,他的网络特点是多技术灵活,因为他是一线产品,他直接给公司带来收入。而我们说互联网的数据中心他并不给公司直接带来收入,它仅仅是一个公司底层的平台,它是为了承担我们很多业务、很多流量的平台。对互联网数据中心来讲,我们认为互联网数据中心的网络它的目的就是要最佳的去支持和促进公司产品和业务的快速发展。因为互联网发展是很快的,产品是需要快速的推出和迭代的。
在今天可能很多人会讲网络稳定性的问题。在今天云计算互联网数据中心的领域我们是这么认为的,网络稳定性根本不取决于网络本身,因为一个整体的概念,数据中心的基础设施,网络、服务器、应用系统,是个整体。很多人反应是,这个整体是不是木桶效应,谁最短谁是瓶颈。在今天我不这么看,我认为在整个整体里面取决于稳定性的核心还是系统,因为在今天很多做传统的电信行业会知道,以前的程控设备,到后来的SDH设备,稳定性都是非常高的,可以说硬件的稳定性就是我心中的稳定性。在很多年前毫无疑问,大家往IT设备上转型,包括现在的语音设备,往IT设备上转型,其实远远低于程控设备的,你不可能要求硬件的可靠性决定网络的可靠性,更多取决于你的系统设计是不是合理,你的容错是不是合理。这是很早之前业界推出分布式的存储,分布式的表格输出等等,他会使得应用软件对于整个系统的容错,起到很至关重要的作用。
最后也是希望在未来云计算的浪潮中,行业内部多分享,行业之间多交流,行业与产业多对话。