有研究显示,到2025年,新开发的企业级应用中有90%都会嵌入AI能力,人工智能的应用将越来越普遍。另外一组数据显示,数据中心里70%的英特尔至强可扩展处理器都在运行着推理工作负载。随着AMX加速器的引入,新一代至强还可以进行机器学习训练,也将更适合机器学习场景。
最适合人工智能的通用处理器
随着AMX加速器的引入,选择第四代英特尔至强可扩展处理器的用户,将在机器学习的效率和经济性方面迈向一个新的台阶,也将使得第四代英特尔至强成为目前市场上,最适合人工智能负载的通用x86处理器。
2023年1月11日,英特尔正式推出第四代英特尔至强可扩展处理器(代号“Sapphire Rapids”),凭借英特尔 AMX、英特尔 IAA、英特尔 QAT、英特尔 DLB、英特尔 DSA、英特尔 SGX、以及英特尔至强CPU MAX系列这七大“算力神器”,共同构成新一代处理器的最大特色。
加速器针对数据中心最常用的工作负载进行加速,它可以更高效、以更低能耗处理这些工作负载。以前需要多个核心完成的工作,现在需要更少甚至单个核心即可完成。这是加速器的最核心价值,也被认为是新一代处理器最吸引用户的关键原因之一。
发布后仅八周,采用该款产品的处理器设计数量创造了英特尔至强系列的历史纪录,其可用平台及出货平台数量也创下新高。如今,大多数主流OEM和ODM厂商都在出货基于该处理器的系统设计,前十大云服务提供商也将在今年部署基于该款处理器的云实例。
在新处理器得到越来越多应用的同时,一批采用新技术、、利用新处理器优势特性的案例也浮出水面。其中,关注度最高的当属人工智能引擎——英特尔高级矩阵扩展(英特尔AMX)加速器。
AMX:支持推理和训练,支持INT8和BF16精度
以ChatGPT引爆的新一轮人工智能热潮的背景之下,英特尔在新一代处理器的每个核心都嵌入了AMX加速引擎,使得英特尔至强不仅能用来做推理,还能用来处理一些机器学习训练负载,这也让英特尔至强成为最适合机器学习的通用x86处理器。
与上一代相比,第四代至强处理器推理性能提高了5.7-10倍
与上一代相比,第四代至强处理器训练性能提高了3.5-10倍
此前的至强通过AVX-512来提高向量运算性能,而现在的AMX则支持矩阵运算,计算效率得到大幅提升。
AMX支持INT8和BF16两种计算精度,两种使用频次都非常高。
其中,INT8常用于推理。众所周知,在日常生产环境中,推理的使用频次要远高于训练的次数,比如,每次刷脸完成身份验证、社交软件里每一次语音转文字以及文字转语音等都是推理过程。
混合精度浮点BF16也常用在训练场景中,并且使用频次在近年来逐渐增加。其主要优势是在可以在保持较高精度的同时,提高计算速度和减少存储空间。与AVX-512相比,每一个计算周期的计算性能都实现了大幅提升。
对这两种精度的支持,意味着至强处理器在实际应用中可以覆盖更多场景。
在互联网场景中的使用
阿里在淘宝中就使用了AMX加速器,其INT8精度和软件优化技术能够支撑淘宝的“地址标准化”服务。具体而言,就是帮助淘宝买家在填写收货地址的时候,提供相应的个性化提示,从而帮买家更快地填写地址。而在技术层面,这主要涉及到语义分析等技术,AMX则提高了语义分析的性能。
此外,阿里还将AMX的BF16计算精度用于手机淘宝首页个性化推荐的场景,配合软件层面上的优化,每天承载着高达亿次的请求,得益于AMX所带来的提升,最终性能达到了原来的3倍。
腾讯太极机器学习平台支撑的搜索和广告业务也基于AMX加速器实现了性能提升。其搜索不仅需要搜索的数量极多,同时也对搜索延迟的要求高。太极机器学习平台支撑的搜索业务部署在腾讯云上,所使用的云主机就基于第四代英特尔至强而构建,配合软件上的优化,不仅帮降低了所使用的CPU的数量,同时性能也有2到3倍的提升。
在生成式模型、大语言模型中的使用
从英特尔专家的介绍中了解到,注意力机制在现如今最火的生成式模型、大语言模型中应用的非常普遍,而恰好第四代英特尔至强可扩展处理器非常适合用于这些模型。
Stable Diffusion是AIGC领域最火的开源大模型之一,支持用自然语言生成图片。Stable Diffusion的技术构成上大量使用了注意力机制,而注意力机制需要矩阵相乘和指数运算能力。而新一代英特尔至强的AMX BF16可用于加速矩阵计算,AVX-512可以用来加速指数计算。
经测试发现,配合英特尔PyTorch扩展插件用Stable Diffusion,生成512×512图片吞吐性能提高了3.82倍,720P图片的吞吐性能提高了5.26倍。
在OCR场景中的应用
英特尔帮助更多企业独立软件服务商使用至强处理器处理OCR类的工作负载,实现降本增效。
比如,在亚信开发的电信智能营业厅方案中,用OCR来识别客户提交上来的身份证件和工商营业执照图片,OCR这种推理负载的需求量非常大,每年大概需要2000万次服务。当把业务迁移到第四代至强可扩展处理器上,并针对AMX做了优化之后,性能实现了3.94倍的提升。
用友企业ERP软件中有一个OCR模块,该模块主要是用于识别办公和财务领域发票内容,该业务每年需要支持3000万次的服务请求。当迁移到第四代至强可扩展处理器之后,结合AMX的优势,实际性能达到了原来的3.83倍。
金蝶的企业ERP也有一个OCR模块,当迁移到第四代至强可扩展处理器之后,一开始并没有使用AMX,只用AVX-512就有了1.65倍的提升。当用户对扫描精度要求更高时,就开始用AMX支持的BF16精度,不仅精度满足了需求,而且,性能也达到了原来的4.58倍。
医疗领域的东软也在用OCR技术来识别票据相关资料,当迁移到第四代至强可扩展处理器而不做优化时,性能提升比较有限,当使用AMX时,性能达到了原来的2.29倍,最后配合软件做优化时,性能达到了原来的4.46倍。