数据的量变和质变之下,人工智能正以25%的复合年增长率“疯狂生长”。从量上来讲,大量的数据由人变为终端设备自主生产;从质上来讲,数据不再是结构化数据,更多偏向利用编程处理。
“目前AI模型训练模式的能源是不可持续的,释放人工智能的超级力量的必由之路是超异构计算”,英特尔研究院副总裁、英特尔中国研究院院长宋继强在2021年的WAIC上如是说。
打好异构计算的地基
要了解超异构计算,就先要明白什么是异构计算。根据宋继强的介绍,异构计算就是将不同架构处理芯片整合到一个系统内工作。具体实施上来来讲包括两种,其一为芯片级集成方式,即将CPU IP、GPU IP、DSP IP等集成到单一SoC内;另一种则为板级集成方式,将CPU、GPU、FPGA等放在一个板上组合。
对应在英特尔上便是一直强调的XPU战略,用不同架构去处理不同类型数据,根据处理速度或带宽要求进行优化。
宋继强表示,CPU适宜处理标量运算,一个一个算,比如控制流,非常容易处理,可以并发;GPU适宜处理矢量运算,很多数据一起算;AI更多是块状运算,需要专门做矩阵加速,数据存取也需要优化;FPGA特别适合稀疏运算,可以大幅度降低I/O及计算消耗。将这些整合起来就能各取所需,打好组合拳。
宋继强以英特尔的“看家本领”CPU举例,实际上至强处理器作为标准的标量运算处理器内部也加入了异构计算。英特尔不仅加入了专门的深度学习加速器件,同时拥有可扩展的一些配置,另外AVX-512专门针对矢量运算进行加速,可以针对深度学习用的不同架构。
通过以上各种特性,通用服务器性能已经提升了46%,而专门针对AI训练和加速,已经提升了74%,这比市面上其他厂商的CPU或者是GPU相对应的能力提升强劲。
这仅仅是CPU层面的异构计算,除此之外,GPU层面英特尔也有Xe架构的独立GPU, ASIC层面上拥有Habana、Movidius等,还有强大的FPGA、eAISC产品线等。
除了传统的加速器,英特尔还研究了远远领先现如今架构的计算形式。英特尔神经拟态计算Loihi芯片是一个存算一体的架构,并且非常容易扩展。Loihi芯片Die内包含128个小核,每个核里面模拟1024个神经元的计算结构,可以模仿13万个神经元,每个神经元又有1000个突触连接。不止如此,这样的芯片还可以继续连接起来,做到768个芯片连接起来,做到接近1亿神经元的系统。
与传统深度学习加速器相比,Loihi没有任何的浮点运算,这是因为人脑中也是没有乘加器的,所以其学习和训练方法走的是另一种方法。Loihi基于SNN,拥有极低的功耗,同时设计之初就是异步设计,只有工作部分是耗电的,不工作的区域是休息的,得益于此在电效率上是现在的深度学习加速芯片的1000倍。值得一提的是,这种架构模式的加速器也是可以用在异构计算之中的。
从异构计算到超异构计算
那么,英特尔这几年开始一直谈及的“超异构计算究竟是什么”,凭什么英特尔多加一个“超”字?根据宋继强的解释,顾名思义超异构计算是“下一个等级”的异构计算,相比传统的异构计算还要再加上更强大的封装互连能力和软件能力。
1、超异构计算的封装互连能力
宋继强为记者表示,实际上异构封装是一个更小型的系统,将不同的计算能力整合在一起。由不同的Die整合起来的,所以能够利用不同架构芯片,在处理不同的数据、不同的任务的时候有独特的性能和功耗优势。
谈及英特尔的封装技术,宋继强表示,英特尔在2.5D上拥有EMIB封装技术,该技术已有诸如AIB的产业标准推出。EMIB可以形象地比喻成,在一个平面上,将两个平房间的下水通连通起来。在3D上拥有Foveros封装技术,该技术可以在计算Die和计算Die间建立互连,而不只是传统的计算Die和Memory Die间互连。Foveros可以形象地比喻成,在三维空间上盖高楼。与此同时,两项技术还可以相结合为Co-EMIB技术。
另外,2020年8月英特尔还宣布了Hybrid Bonding技术,能够进一步缩小封装时裸片之间的凸点间距和功耗,这些技术英特尔已经在一些产品上使用了。这样的封装技术可以让很多新的芯片很好地进行互连,而且英特尔最新架构的类脑芯片也可以和传统的CPU、GPU互相组合。
除了已经在用的封装技术,英特尔在持续研究变革未来的创新集成光电技术,持续光互连的变革性能力。
宋继强表示,计算能力提升后,不同处理器的计算能力随之提升,这就需要更多的数据交互,跨处理器之间,甚至是跨服务器节点间的数据交互。当数据交互继续增加时,I/O将会成为瓶颈,这个瓶颈将体现在尺寸和功耗上,更多的电给了I/O,而计算能力会越来越少。
他表示,英特尔认为光是替代铜的非常好的互连的介质,但是光本身拥有器件较大、光电间转换困难、转换效率不高的问题。因此英特尔为了解决这种问题会将光器件与电器件紧密封装在一起,让二者靠近,减少两端转换损耗;其次制作出收发器,以更小的模式放到服务器内。
英特尔研究院将很多光处理过程的几个模块做成非常小的模块,可以将光产生、光放大、光检测、光调制和CMOS光处理器件整合到一个芯片中,也就是说集成的光电可以大幅度缩小整个系统的尺寸和功耗。
英特尔在硅光子上深耕多年,不仅为客户提供超过400万个100G的硅光子产品,还研究出业界首个封装光学以太交换机。
2、超异构计算的软件能力
异构计算还要构建软件能力,之前行业普遍忽略了软件层的重要性。软件方面上进一步支持AI也是一个很大的课题,软件优化与否在同一个硬件上可以达到百倍的性能差异。尤其是在跨不同单元间同步的问题上,软件优化能够大幅度提升性能。
实际上,反映在编程人员上的问题便是,CPU、GPU、FPGA等不同芯片的开发模式和语言均不同,这种情况下同时发挥多种XPU的性能上就成了一个难题。
英特尔的一体化平台oneAPI就是要创造让编程人员很轻松的,以一套API去使用未来想要的功能性的目标。对软件开发者来说,可以只学Python或是C++,最终程序都可以享受到异构集成的各种优势,并且如果未来硬件升级替代,软件不需要非常多的改动。
宋继强强调,英特尔在oneAPI中投入很大,自从去年推出了Gold版本后,得到非常好的市场反响。另外,现在oneAPI整个社区硬件支持当中,早已不只是英特尔的硬件,友商的CPU、GPU、ASIC都是可用的,这是对整个社区的贡献。
关于AI不得不谈及的问题
对于推动AI创新上,宋继强认为垂直整合是驱动未来产业规模化扩展的重要发力点。他对记者解答,垂直整合是真正可以让AI将算法创新、硬件落实到实处,行成迭代滚动放大效应的必经之路。
垂直整合瞄准一些可以规模化,软硬件结合可以创造更大价值的领域,用应用去拉动多种AI技术的垂直整合。
垂直整合向来比单独一个技术创新难得多,首先要能够接触到这么多种资源、数据和实际应用场景,其次也要有跨层的 专家参与在其中。但无论多么困难,AI创新要真正规模化发展一定要严肃认真地进行垂直整合。
在此方面,Mobileye作为英特尔收购的一个子公司,就把AI能力,通过软件、硬件、传感器整合起来形成很好的方案,开创非常独特的出行即服务的体系。 对于AI的落地问题上,宋继强认为,英特尔有一些机制可以去帮助企业更好的落地。
“比如说“AI百佳创业激励计划”,我们的生态发展部门就创建了这样一个平台,可以帮助他们加速,在中间把他们连接起来,在市场层面进行推动。所以AI落地是一个大问题。”
AI的可信和安全逐渐大面积讨论下,AI治理也成为了热点话题。宋继强认为,对英特尔而言,作为通用技术方案提供商,SGX、同态加密、联邦学习硬件加速这种技术就可以帮助一些客户。
全栈实力推动AI发展
总结来说,英特尔释放AI潜力是通过自身全栈实力推进的,包括硬件层面、前沿计算层面、软件层面和生态构建层面四个方面的。
在硬件层面,英特尔以内置AI加速的至强可扩展处理器为基础,提供全面的XPU芯片平台。
在前沿计算层面,英特尔持续投资和发展量子计算、神经拟态计算等面向未来的计算创新,探索驱动AI持续发展的新架构。
在软件层面,英特尔提供经过全面优化的软件,包括OpenVINO、oneAPI、Analytics Zoo、Tensor Flow、BigDL等,涵盖库、框架以及工具与解决方案等多个层面,用以加速并简化从云到端的范围内人工智能技术的开发与部署。
在生态构建层面,英特尔与中国产、学、研广泛合作,协同开展前沿研究、联手促进人才培养、共同打造开放生态。