升级AI微加速器与智能物联参考设计平台,Arm持续加大边缘AI计算生态

网络和互联网技术的进步,使得物联网(IoT)应运而生并极大推动了边缘计算设备的普及,更强的处理能力和连接性也使得数据处理更加靠近数据源。伴随ML和AI技术的发展,智能设备不仅能够执行任务,还能够学习和适应,边缘智能也变得越来越自主和强大。

Arm物联网事业部业务拓展副总裁马健

在过去十年中,Arm进行了大量投资,并优化性能,实现AI算子延展与部署简化,与生态伙伴更是在智能家居、智能零售与智能制造等领域不断创新,从优化各类传感器必需的嵌入式处理器以实现超低成本、低功耗和小面积并支持控制级代码的开发,到推出增强算力与安全的Armv8-M和Arm TrustZone,嵌入式领域的Armv8.1-M,以及发布使CPU能够执行更多计算密集型的AI推理算法的Arm Helium技术,乃至迎合更高性能和更复杂AI工作负载的Arm Ethos系列AI加速器,应用层级也从家庭向企业级、工业5.0并举,进展令人振奋。

图:Arm赋能边缘AI持续创新

生态是计算之本。Arm软硬件计算平台吸引了各方生态创新,例如恩智浦半导体(NXP)的i.MX系列、瑞萨电子(Renesas)的RA8系列、英飞凌(Infineon)的PSoC Edge和Alif Semiconductor的Ensemble等边缘AI芯片方案,带动着边缘AI的革新。

目前,全球90%的AI都运行在基于Arm架构的CPU上,这些持续投入使Arm成为全球最普遍的AI计算平台之一,吸引了越来越多的开发者加入。

两款新品亮相

4月9日,Arm智能物联产品组合中又新增一些新成员。

1)新一代AI微加速器:Arm Ethos-U85 NPU

Arm Ethos-U NPU系列是业界首款AI微加速器,英飞凌、恩智浦半导体、奇景光电(Himax)、Alif Semiconductor和Synaptics等领先企业均已推出搭载Ethos-U的量产芯片。

与上一代产品相比,Arm Ethos-U85为高性能边缘AI应用带来了四倍的性能提升、20%的能效提升,并保持了一致工具链,实现了无缝的开发者体验。它支持128到2048个MAC单元的配置,在最高性能配置下提供4TOPs的AI算力,以可持续的方式支持未来的应用场景。

图:Arm Ethos-U85提供卓越的神经网络加速功能

Ethos-U85不仅提供卷积神经网络(CNN)所需的权重矩阵乘的运算,还支持矩阵相乘——这是Transformer架构网络的基本组成部分,这是优化大模型边缘落地微调时间、提升模型泛化的关键特性。

基于Transformer的模型具有优异的泛化功能,它将更快地驱动新AI应用的发展。Transformer在视觉和生成式AI用例中,比如视频理解、图文结合,图像增强与生成、图像分类和目标检测等方面都极有价值。Transformer架构网络的注意力机制容易利用并行计算来实现,提高硬件使用效率,使得这些模型能够部署在计算资源有限的边缘设备上。开发者可以通过选用针对Transformer架构网络优化的设计,发掘边缘AI的新机遇,使这些应用享有更快的推理、更优化的模型性能和可扩展性。

支持低功耗MCU系统中AI加速的Ethos-U85在高性能边缘计算系统中,也得到越来越多诸如Linux等标准操作系统和高级开发语言应用处理器的加快部署,这种模式更有利于云原生开发和云边端负载调度。在处理数据量日益增长的AI应用系统中,这个趋势尤为显著:借助Armv9 Cortex-A CPU的加持,Ethos-U85为基于应用处理器的智能物联网平台上运行的AI任务实现加速。

这意味着Ethos-U85将在工业机器视觉、边缘网关、可穿戴设备和消费类机器人等应用中带来高效能的边缘推理。

2)全新智能物联参考设计平台:Arm Corstone-320

Corstone-320包含了Cortex-M系列最高性能的嵌入式处理器Cortex-M85与全新的Ethos-U85 NPU AI加速器组成,用于帮助合作伙伴简化系统开发;Corstone-320还包含Arm Mali-C55 ISP,针对边缘MCU和传感器系统越来越依赖于视觉和图像感知,以实现为视觉应用优化的低功耗系统,这个参考设计是针对实际工作负载开发的,参考用例包括部署在智能家居中的电池供电摄像系统,以及在工业和零售系统中的低帧率网络摄像头。

Corstone-320参考设计提供了有安全保证的软硬件组合,使得在此参考设计基础上开发的合作伙伴能够顺利地通过PSA Certified Level 2认证,实现对区域和全球安全标准的合规。Arm坚信,通过Corstone-320预先集成、预先验证的参考设计模版,必定能帮助合作伙伴减少边缘智能芯片开发的成本和时间。

在提供芯片计算子系统IP组合之外,Corstone-320还附带了软件、AI模型库和开发工具,以实现软件的复用;附带仿真Corstone-320完整系统的Arm虚拟硬件(Arm Virtual Hardware)以及单独的CPU和NPU的固定虚拟平台(FVP)模型,可简化开发并加速产品设计,支持软硬件并行协同开发。

这种提供边缘AI和智能物联网计算子系统全套软硬件和工具链的方法,使得合作伙伴能够在一系列性能点上快速开发,并聚焦于打造差异化价值。

图:Arm助力加速边缘AI设备部署进程

Arm计算平台:优势在握

1)简单易用

简单易用才更适于普及推广。这也是随着边缘AI的持续扩展,物联网生态链上下游的芯片与系统供应商、算法软件开发者与集成商们越来越汇聚在Arm计算平台的原因。Arm计算平台提供了AI从云到端、现代敏捷开发和部署流程中所需的特性和功能,实现基于量产验证的一致架构,并采用统一工具链的AI转型。

2)开源开放

包括开发者、数据科学家、学术界在内的AI研究开发社区,在持续受益于Arm生态系统与合作伙伴提供丰富信息与知识的同时,也围绕Arm计算平台构建日益增长的软件和工具生态系统,以及开源软件库和AI框架。比如为人熟知的PyTorch开源ML框架,广泛用于构建和训练神经网络模型,而PyTorch基金会投资边缘AI,发布针对移动和边缘设备推理工具包ExecuTorch,提供了轻量级运行时(Runtime)和算子注册表,覆盖了PyTorch生态系统中的各类模型。

Arm特有的IP授权许可模式和开放生态,使得OEM和ODM可以有多种基于Arm架构和计算平台的芯片与模组选择,更灵活地开发适于最终应用的系统方案。

图:基于Arm平台的AI软件生态系统

3)需求平衡

高性能的处理能力往往伴随着更高的功耗,而边缘设备往往对功耗和成本都有着严格限制。因此,在设计边缘AI芯片和系统时,需要在计算能力和能效之间找到合适的平衡。

与此同时,随着越来越多的数据在边缘被处理,数据安全和隐私保护变得尤为重要。这要求芯片设计必须包含加密和安全功能。

边缘用例五花八门,传统物联网市场存在碎片化,需要统一多样化的应用要求,才能达到规模化效益,软件定义和适于软件移植的标准更是必不可少,Arm在IP、参考设计和软件标准上持续投入,从而帮助整个边缘AI生态应对这些挑战。

全新的Ethos-U85和Corstone-320参考设计平台,满足了边缘AI用例对更高性能计算的需求,为最新的AI模型、框架提供了原生支持,并沿用Arm软件与AI开发者已经熟知的工具链,具有投资复用、上手容易等优势。这些最新的产品与参考设计加入了丰富的IP产品和技术组合中,使Arm技术能够覆盖更广泛、多样化的智能物联网应用,并满足最新边缘AI市场的性能、成本和能效需求。

4)全面生态

AI的普及与大模型和生成式AI的迅猛发展,为物联网生态系统带来了前所未有的发展机遇。Arm也在与一系列软件算法与工具伙伴合作,以确保为边缘AI系统开发者提供其所需的工具和支持,借助足够的技术广度和经验,强有力地支持整个边缘计算生态系统抓住AI机遇。

Arm:边缘AI计算领域的领导者

从Cortex-M嵌入式处理器的Helium矢量增强指令集,到Cortex-A应用处理器的SVE、SVE2、SME对矢量和矩阵运算的优化,再到Ethos-U AI加速器,随着边缘AI的持续发展,Arm始终处于推动市场和技术进步的核心地位,且决不止步于此。

边缘AI还将随着大模型和生成式AI崛起,用户体验的持续提升、数据量激增以及企业对数据价值的认可,推动行业的巨大变化,如在设备上实现实时语言翻译等。随着大模型持续通过量化、剪枝和聚类技术来缩减优化,以更适于在边缘和超级终端设备部署,大小模型云边端结合正成为未来AI产品的重要发展趋势与AI应用赋能行业发展的重要方向,生态系统中的开发者正在树莓派设备上评估运行包括LLaMA等在内的大模型。

边缘部署大模型和生成式AI用例指日可待,而Arm已经为此做好准备,来挑战物联网与大模型、多模态AI结合的性能与效率极限。

智能必须无处不在,云边端缺一不可。

边缘侧Arm架构芯片的支持,关系到各行各业智能化的成败。此次Arm新推出的Ethos-U85以及Corstone-320旨在加速AI系统的快速落地,促进未来多模态智能应用的全方位部署;Arm将与生态伙伴们砥砺奋进,释放前所未有的AI潜力。

【本文根据Arm物联网事业部业务拓展副总裁马健Chloe Ma在发布会上演讲整理,有删节】