后摩尔定律时代的计算力破局
万物互联、人工智能等技术的成熟正在重构我们的生活方式,数据将以前所未有的速度累积增长,今后的智能设备数量会越来越多,体积越来越小,重量越来越轻。相应的,通过物联网,这些设备会把各式各样的数据源源不断地传输到后端的数据中心,数据来源的多样性、格式的复杂性和语义的不确定性,都将导致后端的计算量越来越大,对计算力的要求也越来越高。
当摩尔定律逐渐失效
过去的半个世纪,得益于半导体芯片产业飞速发展,在摩尔定律的驱动下,计算力一直保持着大跨度的发展。1956年,英特尔创始人戈登·摩尔提出,集成电路的集成度每两年会翻一番,后这个周期缩短到18个月,微处理器的性能每隔18个月提高1倍。
然而,硅芯片已逼近物理和经济成本上的极限,各界纷纷预测,摩尔定律在不久的将来面临失效,半导体工艺升级带来的计算性能的提升不能再像以前那么快了,每一代制程工艺的研发和成熟需要的时间将越来越长。制程发展减缓,新的替代材料和计算方式还未成熟,想要追求更高的计算力,可以从两个方向发展。
一个方向是向内,借助服务器系统架构的优化,打破数据读取瓶颈,从而提升单机计算力。当前,服务器普遍采用的是冯诺依曼架构,即计算和存储分离,而CPU的处理速度和数据的读取速度却无法匹配。纵观整个计算史,处理最缓慢的一部分就是从硬盘获取数据,很多处理性能都浪费在了等待数据到达上,数据存取问题成为目前提升计算速度的第一大难题。
另一个方向是向外,横向堆积更多的计算单元,提升数据中心的整体计算力。计算单元的堆积意味着数据中心内的服务器设备越来越多,数据中心规模越来越大,但是这又会带来功耗、散热和运维管理的挑战。根据市场调研机构Synergy Research发布的数显示,全球服务器保有量超过5万台的超大规模数据中心现在2018年超过430座,这个数量还将继续增。而且,传统的数据中心多采用分布式架构,设备间的互连网络带宽远低于板内和设备内的互连带宽,并且网络协议复杂、层次众多,协议的转换和处理占用了大量系统资源,导致业务系统扩展性受到严重限制,数据中心面临网络性能瓶颈。
融合架构或成破局点
如果按照传统的计算模式和数据中心运作方式,始终无法打破摩尔定律式微带来的计算力困局,想要满足业务快速发展,提升计算力,需要一场由内而外的技术架构变革。我们必须重新定义计算、存储和网络设备之间的关系,重新定位软硬件资源的价值,走一条融合架构的道路。
在硬件层面,将计算、存储、网络分别整合为相应的资源池,使得不同设备之间的同类资源可以任意重组,在软件层面动态感知业务的资源需求,利用硬件的重组能力,动态分配和组合资源,满足各类应用需求。数据中心最终达到CPU、内存等所有硬件资源的完全解耦池化,可以任意组合,根据业务需求智能分配,实现真正意义上的“数据中心即计算机”。
浪潮早在2014年就提出了融合架构的战略,强调硬件重构+软件定义,浪潮的服务器平台经过多年的演进,也已进入到融合架构3.0阶段。在硬件重构上,通过数据中心内部如硅光互联,Nvlink等高速物理互连技术,实现包括x86、Power、国产芯片、GPU异构计算芯片的融合,实现NVMe,SSD,HDD等异构存储介质的融合,真正实现计算、存储资源的深度池化。软件定义方面,在可重构的硬件资源池基础上,通过灵活的组织,将不同的资源池组成专业的服务器、存储、网络系统,并实现资源的高效管理和调度,软件定义下一步将向着规模化,智能化方向发展。
硬件重构导向开放计算
互联网行业的快速发展,让互联网巨头公司纷纷建设自己的数据中心,谷歌、亚马逊、微软、腾讯、百度和阿里成为全球超大规模数据中心的主要拥有者。他们在硬件采购上更倾向于硬件重构,选择集成度高、模块化、定制化的服务器,这就导致传统的机架式服务器、刀片式服务器被逐渐抛弃,以整机柜服务器为代表的新一代云服务器成为超大规模数据中心的主流选择。
整机柜服务器本质上是一个数据中心颗粒,而不是传统的计算设备,整机柜服务器通过硬件重构,统一集成了计算、网络、存储以及散热、供电、管理等模块,具有完备的数据中心功能,而且一体化设计、一体化部署,部署密度提升1-3倍,能源效率在90%以上,相比之下更大地提升了部署速度,传统机架式设备的日部署量约为几百台,而整机柜的日部署量能达到上万台,浪潮整机柜服务器SR在百度数据中心的部署速度曾达到惊人的1万节点/日。
当硬件厂商和互联网巨头对硬件重构的探索越来越多时,业界对数据中心硬件开源的呼声也越来越强。软件层面解决不了的问题必须通过硬件重构来实现,可是硬件的升级迭代比软件要难得多,一般来说一代产品研发周期要18个月到3年,建立开源数据中心的硬件生态系统,让所有的参与者,包括CSP、解决方案和设备提供商,将自己在数据中心方面的创新贡献出来,共同推动数据中心的优化,提升效率,节约能耗,降低成本等,才能更好地解决超大规模数据中心带来的难题,提升计算力。
浪潮,开放计算的践行者
当下,全球范围内已经形成了三个影响力最大的开放计算组织:2011年由Facebook、英特尔等企业联合成立的OCP;2012年由BAT和三大运营商发起的ODCC,其前身是天蝎计划;2016年LinkedIn推出的OPEN19,他们的目标都是打造开源数据中心硬件生态系统,改变数据中心架构设计和硬件采购方式。
浪潮是OCP、ODCC、OPEN19三大开放计算组织的核心成员,积极参与其中,从贡献IP、参与开发标准,到主导标准制定,在开放硬件社区中的参与度越来越高,符合ODCC标准的SR整机柜服务器在中国整机柜市场占有率超过60%,贡献了首批基于Open19 标准的服务器、第一款OCP标准基于Intel Skylake平台的主板、第一款Olympus四路服务器。同时,浪潮还参与了OCP OAM项目,牵头成立了OpenRMC项目,开发完成了全球第一个基于OCP标准的整机柜管理架构。
当摩尔定律失效,CPU性能提升放缓,计算力增长式微,而云计算、大数据、物联网、边缘计算、人工智能等技术的进一步成熟产生的海量数据又加大了对后端数据中心计算力的需求,事实证明,融合架构和开放计算成为破解当前计算力困局的有效之路。开放计算让身处行业之中的终端用户、IT基础设施提供商、生产企业、服务企业之间建立起了一种前所未有的紧密关联,开始拥有了一个统一的技术和应用标准,大家不再是各自为战,在困境中单独摸索,而是共同应对,突破创新。(浪潮服务器产品部副总经理 陈彦灵)
作者简介:
陈彦灵,毕业于西安交通大学计算机科学与技术专业,现任浪潮服务器产品部副总经理。国家科技进步一等奖获得者,个人申报并受理专利46项,已获得授权专利23项,授权发明专利8项。2015年承担山东省重大专项融合架构云服务器研发及产业化通过验收。参与制定的《8路(含)以上服务器功能基本要求》国家标准于2017年11月1号发布。