人工智能(AI)时代的边缘端有哪些变化?
AMD自适应与嵌入式计算事业部( AECG ) Versal产品营销总监Manuel Uhm认为,边缘正在发生一场革命:无论是在功耗、环境温度、实时计算、功能安全、使用寿命还是尺寸大小各方面,都面临越来越多的挑战。虽然之前AMD提供了Versal 及Zynq等相关产品支持医疗、交通、零售、工厂、城市建设等领域的应用,但不断增长的数据和不断提升的算力需求,使得现有系统难以承载更高阶段的计算。
“AI的发展,以及AI的无处不在,为高度受限的系统带来更高要求的工作负载。” Manuel说。
人工智能驱动的嵌入式系统:不同阶段与对策
人工智能驱动的嵌入式系统,有着三个阶段的处理任务,预处理阶段负责传感器处理与融合数据调节,对于系统而言这是非常关键的一环;在推理阶段,实时嵌入式系统解决感知、分析、情境感知问题,后处理阶段实现决策、控制、反馈。
这三类处理都必须能够加速,才能够真正实现全系统的实时。但由于没有任何一类处理器能够针对三个阶段进行优化,因此,用户构建的系统大都是采用这样的对策:在预处理阶段采用非自适应的SoC或I/O接口及硬ISP方式,但这种方式缺少灵活性,必须通过外部的内存来做一些存储和缓存,由于处理器并没有经过优化,所以不仅影响其效率,而且时延也有所加强;推理阶段采用非自适应的矢量处理器;在后处理阶段,通常使用的都是高性能的嵌入式CPU。
对用户而言,采用AMD第一代Versal AI Edge系列的可编程逻辑来做预处理,然后用矢量处理或者人工智能引擎来做推理,也不失为一个选项。但这种做法的不足之处是,后处理阶段需要配置外部的处理器。
无论采用哪种方法,都离不开多芯片的解决方式,导致一系列新的问题,比如更高的功率需求,供电的复杂性,更高的占板面积与终端的系统尺寸,更高的外部内存需求,以及芯片间凸性带来的时延增加;而板卡上更多的组件,也意味着更多的安全漏洞、可能的故障点以及更大的报废挑战,板卡设计时间与工作量也成为拉低生产率的因素。
4月9日,AMD发布了为嵌入式系统带来单芯片智能性的第二代Versal 自适应SoC,顺利化解上述挑战。
二代Versal 自适应SoC发布:两款新品系列
两款产品分别是面向AI驱动型嵌入式系统的第二代Versal AI Edge系列,以及面向经典嵌入式系统的第二代Versal Prime系列。两款新品除了具备同样的AI引擎,还能够实现高达3倍的TOPS每瓦,以及高达10倍的标量计算,采用全新高性能集成CPU;通过AMD可编程逻辑,实现世界领先的自适应计算。
顾名思义,单芯片智能意味着在单个器件中提供端到端的加速,也就是实现全部三个阶段的加速。
在预处理环节,AMD可编程逻辑支持传感器的融合和数据调节;可编程逻辑可以非常灵活地适应各类型的接口,确保真正的实时,还可以在现场部署之后进行升级,实现定制的可编程逻辑差异化,且无需外部的内存以及缓存的需求和设置,支持广泛的速率、电压和工作模式,减轻了处理工作的压力,节省了运行时间。
针对AI推理环节,AMD第二代Versal AI Edge系列器件中提供了名为AIE-ML v2的AI引擎,通过扩展的数据类型支持,实现了高达2倍的每瓦TOPS。其特点是控制处理器包含在AI引擎阵列中,并且做了硬化,无需使用可编程逻辑进行控制,将可编程逻辑用于传感器和硬图像和视频等数据处理的应用,由此也支持更多的数据类型,在提高吞吐量的前提下实现更高的精准度。
这也是和上一代的显著差别。
AI引擎功能强大,但离不开强大好用的软件包。AMD提供了一个Vitis AI软件,方便开发者将原本非常熟悉的开源工具,比如PyTorch、TensorFlow等在Vitis中进行优化,然后更好地部署和推理。
AMD第二代Versal自适应的SoC还大大提升了CPU的能力,实现高达8倍的Arm Cortex-A78AE核心,每核心最高频率高达2.2GHz,并且有高达200.3K的DMIPS算力,为复杂的后处理提供高达10倍的标量算力。
针对控制功能的实时处理单元,RPU提供高达10倍的Arm Cortex-R52核心,每核心最高频率高达1.05 GHz,高达28.5K的DMIPS算力。
边缘对于信息安全和功能安全都有非常严格的要求,新产品也提供了通过车规级认证和安全认证的ASIL D以及SIL 3,分别用于自动驾驶的汽车以及工业机器人——这些应用场景从产品的设计开始就必须加入的。
超越前一代:以功能的完善与中央计算的能力
AMD的第一代CPU加速解决方案已经应用于广泛的市场,而面向 AI 驱动型及经典嵌入式系统的第二代Versal AI Edge系列能够形成系统的中央计算,拓展了其在汽车、机器人、工业物联网、医疗、机器视觉、专业音视频与广播等众多领域的更深层次的应用,这也是AMD数十年来为具有挑战性的嵌入式应用提供解决方案积累的丰富经验为支撑。
以一个高级自动驾驶辅助系统L2和L3为例,第二代Versal AI Edge系列比第一代提升了4倍图像处理的能力,消耗的功率却非常接近;而在充斥摄像头与海量视频的智慧城市领域,采用第二代Versal AI Edge系列的边缘AI设备不仅缩小30%的占板面积,而且支持2倍的视频流,每路视频流占板面积缩小65%;在专业的音视频和广播领域,第二代Versal Prime系列提供每秒约60帧的高精度流量,比Zyng MPSoC高出一倍的视频处理面积,每路视频流占板面积缩小35%。
总体而言,一代产品更多的是边缘的传感或者计算的卸载,而二代产品不仅一代产品功能的补充,更能以中央计算的能力应对不同的场景。
以斯巴鲁为代表,试用计划已经展开
斯巴鲁(Subaru)是一家知名的汽车整车供应商,在其视觉系统EyeSight 中采用第二代Versal AI Edge系列,实现了碰撞前制动、车道偏离预警、自适应巡航控制和车道保持辅助等功能。之所以选择AMD第二代Versal AI Edge系列,就是看中了它在确保安全可靠前提下的低时延、先进的数据类型支持、高吞吐量以及高精度的特点,借以巩固其在下一代视觉系统在AI方面的领先地位。
第二代Versal AI Edge系列可编程逻辑的灵活性,对斯巴鲁来也颇具价值——利用在可编程逻辑中实现的反馈IP,斯巴鲁下一代EyeSight系统可以实时修改摄像头的传感器参数,同时维持其全年消除致命性道路事故的安全目标。
早期的试用计划已经展开,目前AMD正与包括斯巴鲁在内的主要客户进行接洽,采用第一代评估板和设计工具展开设计与推广应用。
产品路线图公布:关注2025
第二代的Versal AI Edge系列和第二代的Versal Prime系列产品芯片的样片将于2025年上半年发布,评估套件和系统模块将于2025年年中推出,量产芯片将于2025年末面世。
“AMD此次推出的单芯片的智能用于支持嵌入式系统,应对无处不在的人工智能。”Manuel总结说,“很难预测5年之后人工智能将会发展到什么样的程度,但AMD将始终深度参与相关的创新和发展,以领先的产品和解决方案不断改变我们的生活方式。”