Arm终端计算子系统发布,卓越性能与计算能力让解决方案的构建和部署更加简便、快捷与安全

日前,Arm发布了新的计算平台——Arm终端计算子系统(Arm CSS for Client),首次在终端领域以Arm CPU和GPU的优化设计形式交付物理实现,让构建和部署基于Arm架构的解决方案变得更加简单,确保万无一失,同时实现新的性能点和计算能力。

据悉,Arm终端CSS已经投入到合作伙伴的SoC设计中,充分发挥来自领先代工厂的三纳米工艺优势,加速达成高性能、高效率,以及加快上市进程。

与往年的Arm全面计算解决方案(TCS)相比,此次推出的Arm终端CSS在采用最新CPU和GPU的同时,还提供了三纳米工艺的CPU和GPU物理实现。

Arm终端事业部产品管理副总裁James McNiven

“AI时代正加速发展,复杂性随之不断提高,计算需求呈指数级增长。我们不断倾听合作伙伴的意见,善用最新的工艺节点持续迭代更新产品及解决方案,并提供可为实现设备端AI奠定基础的平台。”5月30日,Arm终端事业部产品管理副总裁James McNiven在北京召开的媒体沟通会上如是说。

提供业界领先性能的核心部件

Arm终端CSS整合了最新的Armv9.2 CPU、Immortalis GPU、CoreLink系统互连和系统内存管理单元(SMMU),并优化到内存及SoC其他部分的计算路径,同时结合了在软件、安全和生态领域的创新。

Cortex-X925是Cortex-X推出以来IPC同比性能增长最高的CPU。结合新设计所实现的微架构改进和频率提升,Arm具备迄今为止最宽的解码和巨幅提升的矢量设计,在3.8GHz的时钟速率和最大私有L2缓存大小的条件下,Cortex-X925比2023年发布的旗舰智能手机的四纳米SoC实现了36%的单线程性能增长。在​AI性能方面,与上一代的Cortex-X CPU相比,Token首次响应时间提高了41%,TOPS数实现了50%的增长,大语言模型(LLM)等设备端生成式AI的响应能力显著提高。

毫无疑问,这些成果是Arm RTL和物理设计团队之间就三纳米工艺的频率和效率提升展开进一步协作成果。

另一款CPU——Cortex-A725针对AI和手游用例的性能效率比Cortex-A720提高了35%。这一改进得益于更新后的Arm Cortex-A520 CPU与更新后的DSU-120,使得采用最新Armv9 CPU集群的消费电子设备可提升能效和可扩展性。

Immortalis-G925是Arm性能最强、效率最高的GPU,也是Arm第三代具备光线追踪技术的GPU。在图形应用方面,其性能提高了37%,在多个AI/ML网络上进行测量时性能也有约34%的提升。2022年引入智能手机的光线追踪技术水平也得到大幅提升,在面对复杂物体时甚至提升高达52%。

除了通过CSS推动性能和效率提升之外,Arm致力于为每一位安卓设备用户提高性能。在Cortex-X925带来的30%性能提升基础上,Arm对网页浏览器进行的改进,使其性能提高了23%,国内的手机厂商也将这些改进引入到其他浏览器中。与此同时,Arm继续携手Google推动其安卓动态性能框架(Android Dynamic Performance Framework)的发展,最新版本的框架中高端内容的每帧能耗降低了25%,帧速率则提高了35%。此外,通过调整安卓工作负载在不同CPU核心之间的平衡方式,YouTube节省了高达10%的功耗。针对Google的AV1视频编解码器进行的软件优化,使当下安卓设备的视频性能最多可提高40%。

“上述这些仅是Arm引入的众多性能改进中的一部分。”James McNiven说。他认为,Arm在游戏和图形技术领域对开发者的投入无出其右,并致力于让开发者尽可能轻松地在移动设备上实现游戏主机级内容。他透露,今年将持续开展全球的开发者教育活动,以确保游戏开发者能够再现更多精彩示例内容。

发布Kleidi软件

在当今的AI和计算机视觉软件领域有着诸多解决方案,它们首先是为CPU构建的,其中许多解决方案内嵌在CPU中。由于70%的第三方安卓ML工作负载都以CPU为目标,因此性能越高,开发者就能越快地将功能推出,并专注于下一个创新。

Arm Kleidi的作用正是如此,它包括一系列轻量级的开源库,这些小型、高度优化的内核,可集成或嵌入到涉及AI或计算视觉的任何平台,使开发者在部署到任何Arm终端CSS上时均能获得优异性能。

目前Kleidi推出两个软件库。其中,KleidiAI是一套面向AI框架开发者的计算内核,搭配Arm CSS的KleidiAI通过Neon、SVE2和SME2等一系列Arm的加速技术,显著提高计算应用的性能。当运行于Cortex-X925上时,Kleidi技术支持最新的Llama3和Phi-3 LLM,速度比参考实现快2.9倍,而且耗时不足24小时。

此外,KleidiCV则是面向计算机视觉应用的开源库,它优化了性能关键例程,利用ACLE内联函数,直接映射到Arm SIMD指令,为Neon、SVE2或Streaming SVE&SME2提供了三种不同的实现,还可自动检测运行硬件并选择最佳实现。KleidiCV还具有灵活性、简单但快速的图像操作、轻量级等特点,在OpenCV的基准测试中,通过启用KleidiCV,可以在某些情况下显著加速OpenCV的性能,平均性能提升超过75%。

Kleidi既可以出色运行在Arm已推出的CPU核心上,也为解锁未来Armv9架构的CPU创新做好了准备,前后兼容的方式确保Arm在引入更多技术时依然能适用未来市场的需求。

“Kleidi“一词来源于希腊语,意为“钥匙”;Arm相信,Kleidi的推出,将为开发者释放更多优势性能的“钥匙”。

推进安全技术收获颇丰

Arm 终端 CSS基于最新的Armv9架构,该架构提供了一系列的安全性功能,比如内存标签扩展(Memory Tagging Extension, MTE),帮助开发者在无需侵入式检测的情况下查找和修复代码中的错误,有助于加强内存子系统中可能出现的安全漏洞的防范。最新的Corelink系统互连和系统内存管理单元可以提供安全的内存访问控制,增强了整个系统的安全性,私有L2缓存也有助于提升数据的安全性。

此外,Arm 终端 CSS的设计允许软件和硬件之间的紧密集成,使得安全特性可以贯穿整个系统,提供更全面的保护。

生态建设成果丰硕

生态系统的建设对于 Arm 而言至关重要。近年来,Arm与微软始终紧密合作合作,通过资助开源和发布面向Windows的Arm Performance Libraries,有效地发展生态系统。

而对于Windows on Arm (WoA)生态系统来说,今年是成果丰硕、值得大书特书的一年。

除了Microsoft Office、Dropbox、Zoom、Adobe套件等,越来越多的应用成为Arm原生应用,包括百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等,此外,还有许多针对创作者的开源工具,例如Audacity、Blender和用于流媒体的OBS Studio,这些应用整合了大量的开源库和开发者工具,帮助更多的用户更好地运行原生应用。

为合作伙伴和最终用户带来最大收益

过去几年来,Arm处理器除了后端的计算能力大幅提升,前端访存能力也因持续加大的投资带来了测试数据的增长,指令预取、分支预测、cache能力等应用程序的性能也大幅度提升。vivo得益于Arm的这一态势。

Arm终端事业部产品管理副总裁James McNiven(图左)和vivo首席芯片规划专家夏晓菲

2023年,vivo与MediaTek合作在X100手机采用的蓝晶芯片技术栈中使用了全大核架构,让手机的流畅性达到了极高水准,背后就是Arm微架构展示的价值。除了充分发挥了CPU的能力,vivo还和Arm合作把浏览器的性能提升了20%,这相当于一代处理器能力的提升。vivo首席芯片规划专家夏晓菲表示,vivo 非常注重用户体验,在 Arm CSS 的技术基础之上,vivo与 Arm 的密切合作,共同推动开发者生态,使手机更流畅更好用,同时也为设备端带来了前沿的 AI 体验。vivo很高兴看到 Arm 终端 CSS 所引入的新方向,以及通过 Armv9 CPU 与 Arm GPU,这套计算子系统将赋能新一代设备端生成式 AI,从而实现沉浸式的智能移动端解决方案。

此外,OPPO、三星和小米等手机品牌商也推出了AI应用和用例。除了智能手机,笔记本电脑、可穿戴设备和数字电视等设备都有广泛的应用前景。

“Arm正在为最大的计算生态系统提供普适应用,且对开发者友好的指令集。成为这一切的基石。“James McNiven信心满满:”现在正是移动设备行业的关键时刻。设备端AI再次重新定义了智能手机的‘智能性’。我们的最终目标是让合作伙伴以及生态系统能够不断创新、实现差异化并更快地进入市场。“