【本文编译自赛灵思工业、视觉、医疗科学事业部总监Chetan Khona 撰写的博客】
导语
我们常说“大道至简”,因为往往用词越多,想法就越具体、越琐碎。所以当我们在开发 Kria SOM (System-on-Module,系统模块时,就大胆提出了“无需 FPGA 设计也可尽享赛灵思技术优势”这一概念,致力于通过全面审视整个 FPGA 设计流程,将一系列相当普通、毫不张扬的概念糅合起来,构建出一种独特而多面的技术,让那些希望利用 FPGA 技术的优势在量产系统中实现创新理念却不知道或者特别想知道从哪里入手的嵌入式开发者和 AI 软件开发者,也能尽享FPGA 高性能、灵活应变的价值优势。
正文
Kria系统模块 ( System-on-Module,SOM ) 是一款集成嵌入式、可插拔、信用卡尺寸的基于 Arm SoC 的解决方案,可轻松支持各种预定义及用户定义应用。Kria SOM 和互联的赛灵思应用商店 (Xilinx App Store) ,旨在面向那些希望利用 FPGA 技术的优势在量产系统中实现创新理念却不知道或者特别想知道从哪里入手的嵌入式开发者和 AI 软件开发者,提供一个“欢迎”的标志。此外,对于传统的赛灵思设计着而言,Kria SOM 是一个可用于量产设计的方便且高效的硬件平台。
Kria SOM 简介
FPGA 的功能在逐年扩展,始终围绕着一个核心价值主张,那就是较其他嵌入式技术的灵活性与性能优势。毫无疑问,近年来 FPGA 的最主流趋势是集成嵌入式处理器和外设,使设计人员能够将合适的任务分配给合适的计算引擎。由此使得自适应 SoC 通过在不同规模 FPGA 架构上,通过提供统一的处理子系统为用户带来三重自由度,即软件可编程能力、硬件可编程能力和嵌入式平台的可扩展能力。鉴于这些原因,
以及赛灵思白皮书 WP493 中阐述的其他原因,过去十年中 Zynq-7000 SoC 和 Zynq UltraScale+ MPSoC 在工业与医疗物联网量产系统中已经得到广泛应用。
这种广泛应用缘于 FPGA 技术显而易见的、差异化的优势。然而,正如这种状况所揭示的激动人心的前景,其应用范围还可以更加广泛。那么,如何才能进一步释放这种应用潜力呢?
首先,让我们看看阻碍其得到更广泛采用的有哪些因素。两个最常见的因素是:
1. 不熟悉传统的 FPGA 设计流程
2. 用开发时间衡量FPGA 设计流程的迭代成本
很明显,大量的系统架构师和嵌入式及 AI 软件开发者, 都对 FPGA 的优势有所耳闻,并希望有机会运用这类 FPGA。然而,他们不想花费漫长的过程克服学习“新”设计流程的困难,只想专注于嵌入式硬件方面的开发过程。即便对于 FPGA 专家而言,许多人也表示希望能为自己的嵌入式设计提供一种简单且经济高效的的量产硬件部署选项。由于同地协作 ( 如电子实验室) 中需要协作才能启动嵌入式电路板,加之 2020 年和 2021 年的全球疫情肆虐对同地协作的局限,这种愿望也变得愈加强烈。
Kria SOM 是赛灵思量产型产品组合的最新成员。该产品组合的成员已包括面向 x86 应用、FPGA 和自应 SoC 的加速器卡。Kria SOM 是一种集成嵌入式、可插拔、信用卡尺寸的基于 Arm SoC 的解决方案。赛灵思 SOM 架构的初衷是简化架构,只包含 SoC、存储器、电源和其他 SoC 的基本支持功能。当 SOM 与 最终用户设计的低复杂度印刷电路板载卡搭配使用时,只需要采用一组简单的开放连接器解决用户终端系统的连接和附加组件需求,就可以将其集成到量产部署的系统中。针对开发和评估,赛灵思提供了入门套件。该套件由非量产型 Kria SOM 与预定义的载卡共同构成,并提供各种接口选项以连接传感器或其他外设。入门套件是初次使用 Kria SOM(特别是视觉 AI 应用)的最便捷方法,它为面向目标应用开发并由用户定义的定制型量产载卡提供了实现途径。
节省多达九个月的开发时间及相关成本
Kria SOM 为新接触 FPGA 和 SoC 技术的开发者,提供了独特的、简化的用户体验,并向打算外购而非自行开发量产硬件的FPGA 长期用户,提供了极具吸引力的效率提升。而对于 FPGA 专业人士而言,Kria SOM 可节省多达 9个月的开发时间和相关成本 —— 非常直接明了的价值主张。节省的这 9 个月时间主要来自器件选型、
录入原理图、布局电路板和启动多学科协作电路板,有时也包括部分的重新设计。对于刚接触自适应计算的用户而言,还有更值得关注、也更加显著的效益。本白皮书将在下文中重点介绍这些效益。
Kria SOM 首个成员 SOM K26 和首个入门套件 KV260 视觉 AI 入门套件已经推出,代表了全新赛灵思主流产品线。
随着时间的推移,开发者可以期待更多的 Kria SOM 和套件。而且虽然本白皮书重点讲述的是第一批方案,但同样的概念也适用于未来推出的解决方案。
借助赛灵思 Kria SOM 简化嵌入式设计的关键实现技术,在于随每个入门套件提供的应用专用基础架构。它可以直接用于用户的量产设计。首款 Kria 入门套件为 Kria KV260 视觉 AI 入门套件,它主要面向视觉 AI 应用。未来的解决方案将重点关注由赛灵思和第三方开发的其他丰富多样的应用,并在 Xilinx App Store 中提供。Xilinx App Store提供成套的量产级参考设计,称为 Kria 加速应用。这种基于加速应用的独
特方法既为以软件为基础的设计提供了全新范例,同时也为目标应用保持了 FPGA 的性能优势和系统级灵活性。
利用加速应用方法简化 FPGA 设计
自适应 SoC 是一把双刃剑。它们虽然比任何其他主流半导体技术都更加灵活,但也会让新用户感到过于复杂。这种灵活性体现在众多方面:可编程逻辑、可编程软件、可编程 I/O、可编程 DSP 引擎、可编程嵌入式 RAM、可编程安全性、可编程功耗等。Kria SOM 以最常用、最主流的用例为重点,从设计上简化了这种灵活性造成的复杂性。这些用例已开发到加速应用中,方便用户通过 Xilinx App Store加入设计者的行
列中。加速应用的变革性影响,类似于自动挡的发明较之手动挡令汽车驾驶更简便易行。虽然手动挡的热衷者仍不乏其人,但是世界上大多数人会自然地选用最容易操纵、最方便的方式。然而,即使赛灵思器件的固有功能被做了这样的简化,但与市场上无论是基于微处理器或是 GPU 的 SOM 相比,Kria SOM 都能提供强得多的系统级灵活性。
除了预配置电源提供的关键的便利特性、具备“金版”镜像回读功能的自动化启动流程和灵活的 I/O 分配以外,Kria SOM 还为加速开发提供了更多丰富功能。Kria SOM 支持预构建、可扩展的 Linux 基础设施,无论客户倾向于 Canonical 提供的 Ubuntu 和 Ubuntu Core 版本,还是赛灵思通过 PetaLinux 工具管理的 Linux 内核,以及使用 Yocto 进行定制构建的功能。两种方式都提供了一套非常实用的系统工具,如温度监控器、性能监控器、DDR 内存和其他外设的服务质量配置、固件无线更新能力、内置自检测等。这些特性对于简化 Kria SOM 的使用很有帮助。然而,Kria SOM 最突出的特点在于 Xilinx App Store 提供的不断丰富的加速应用库。其中既有免费应用,也有收费应用,并且都可以轻松加载到 Kria SOM 中。
预构建的可编程逻辑与加速应用
Kria 加速应用旨在借助基础软件应用创建稳健的应用专用 FPGA 硬件设计,方便最终用户进行扩展。在加速应用中,SoC 的可编程逻辑部分已经为用户预先构建。不需要进行修改即可使用。当然,如果需要也可以修改。 赛灵思已经开发出一定数量的加速应用,通过修改就能满足设计者的多样化需求。初始 Kria 加速应用依据的是研究发现的用户在开发过程中最常使用的视觉 AI 应用。这些赛灵思提供的加速应用可由用户根据自身目标和需求进行修改。与从头开发相比,帮助他们节省了软件开发时间。赛灵思和赛灵思生态系统 (运用自己在各自重点领域的专业知识交付应用合作伙伴)将在Xilinx App Store上增加更多加速应用。参见表
对于首批入门套件解决方案,主要应用是视觉 AI 应用,例如安全、智慧城市、交通管理和零售分析。这些应用推动了针对 KV260 入门套件的设计决策,包括为 I/O 接口选择连接器等决策。这些连接包括 MIPI、HDMI、DisplayPort、USB 和以太网等接口。未来的入门套件将面向更多类型的应用,如机器视觉、视觉引导机器人等。Kria 加速应用帮助用户快速从评估阶段进入到设计阶段以及部署阶段。
从评估到量产部署的典型流程
这里是从评估到量产部署的典型流程:
1. 最初数天(评估):选择满足用户需求,适合评估平台功能的最为近似的赛灵思预构建设计(加速应用)。
2. 最初数周(设计):定制应用软件和 AI 模型,根据最终产品需求调试 Kria 加速应用。此外,用户还可以针对用户的 AI 模型选择,使用 Vitis库的硬件加速器优化完整的图像数据路径,最大限度提升性能。
3. 最初数月(部署):针对具体的用户外设(如不同的摄像头传感器)定制硬件并启动构建定制载卡的流程。根据需要,参照丰富的在线教程和设计指南,在这个阶段通过 Vitis 设计工具也可以修改 FPGA硬件。
4. 数年(适配):通过无线更新的方式对现场的软硬件进行更新,从而最大化产品相关性,并通过这些 更新,有望为用户的公司创造新的收益流。不断演进的标准、威胁和客户需求可能导致 AI 模型、视 觉流水线、控制环路、通信协议和加密引擎发生改变。Kria SOM 提供了在部署后做出这些改变的灵 活性与内置功能。
正如上述场景所呈现的,在评估阶段无需安装赛灵思工具。GNU 编译器和 Vitis AI 等软件工具用于第二步,即设计阶段。第三阶段是部署。如过有任何阶段需要实现硬件定制,最有可能是在这个阶段。因此有可能需要 Vitis 和/或 Vivado® 设计套件等 FPGA 工具。
Kria 加速应用的优势
Kria 加速应用的重要之处在于,它们允许用户在 Ubuntu 或 Yocto Linux 环境下从熟悉的嵌入式软件和 AI 工具入手,而不必与可能不熟悉的 FPGA 工具打交道。要让用户充分发挥这种方便的流程的优势,前提是赛灵思应用商店中有与用户需求匹配的加速应用(例如智能摄像头、AI Box、配有 KV26 和 KV260 的机器视觉摄像头,还有未来的机器人控制器和电驱动器)。应用软件和 AI 处理是量产所需的主要修改。因此,虽然完全支持 FPGA 定制,但无需定制。
凭借软件设计的便利性,预先构建在这些系统内的应用专用 FPGA 加速块提供了世界一流的性能和低时延。SOM还能根据加载到 SOM 中的具体加速应用,通过改变用户可用的加速块,提供显著的“个性化”加速。此外,每个加速应用都可以使用 Vitis 加速库实现定制化。定制范围从 OpenCV 到丰富多样的其他常用功能。这种灵活性是SOM 自适应技术基础的基本价值主张。
Kria SOM 的主要性能和特性
主要特性和标准随使用的 Kria 加速应用以及与该应用相关的功能而有所变化。对于首批解决方案而言,K26 SOM 和 KV260 视觉 AI 入门套件重点关注 AI 吞吐量、性能功耗比和每通道成本。如欲了解更详细的性能基准测试报告,敬请查询相关白皮书:WP529,Kria K26 SOM:边缘视觉 AI 的理想平台。本白皮书概述了相对于竞争对手 SOM 产品的优势,重点介绍了具体的用例,如智慧城市应用中的车牌/数字车牌识别等。
从纯粹的每秒万亿次的运算(TOPS)来看,K26 SOM 可提供比 Nvidia Jetson Nano 高大约 3 倍的性能优势。此外,它也能提供比 Nvidia Jetson TX2 最多高 2 倍的性能功耗比优势。其低时延、高性能的深度学习处理单元(DPU)在机器学习性能基准测试套件的网络上,可提供显著优于 Nano 和 TX2 的性能。
Kria K26 SOM 特性
K26 SOM 采用 Zynq UltraScale+ MPSoC 架构。由此,K26 和所有 K2x 系列 SOM 均搭载一个 64 位四核 Arm® Cortex™-A53 应用处理器组、一个 32 位双核 Arm Cortex-R5F 实时处理器和一个 Arm Mali™-400MP2 3D 图形处理器。SOM 还内置 4GB 的 64 位 DDR4 内存以及 QSPI 和 eMMC 存储器。通过外部 TPM2.0,内置硬件信任根的固有安全启动功能得到扩展,能进行测量启动并符合 IEC 62443 的标准(参见 WP513,赛灵思 IEC 62443 合规产品实现)。此外,通过其 FPGA 架构内的 25.6 万个系统逻辑单元,K26 SOM 还能支持最多 4096 个大小的 DPU,并为 H.264/H.265 提供内置视频编解码器。K26 SOM 通过 四个 6Gb/s 收发器和四个 12.5Gb/s 收发器,支持大量的 1.8V、3.3V、单端和差分 I/O。整体上可以支持
多种类型的标准,如 MIPI、SLVS-EC、sub-LVDS、DisplayPort、HDMI、PCIe® 、USB2.0/3.0 等,包括用户定义的标准。K26 SOM 的大小是 77mm x 60mm x 11mm,在未来,计划显著缩小 SOM 的尺寸,以支持坚固型应用。商用级 K26 SOM 支持的额定温度范围是 0°C 至 +85°C 结温,以内部温度传感器报告应用处理器的温度为准。SOM 上的所有其他器件均以该传感器的测量值为准。类似地,工业级支持的额定温度范围是 –40°C 至 +100°C。SOM 通过两个 240 引脚连接器与载卡相连。参见表 2。
KV260 入门套件特性
为了降低成本、简化评估,尽管量产的 K26 SOM 上有两个连接器,KV269 入门套件内的 SOM 由于功能受限,因此只有一个连接器可以使用。量产 SOM 和入门套件间的其他差异还有载卡上移除 eMMC 存储器,用 SD 卡接口代替,以及入门套件只能在室温下运行。
KV260 视觉 AI 入门套件支持三个 MIPI 传感器接口,一个安森美半导体提供的成像器接入系统(IAS)连接器并配套一个板载图像信号处理器(ISP)、一个补充 IAS 连接器和一个树莓派连接器。提供多个 USB 2.0/3.0 接口以及以太网、HDMI、DisplayPort 和 Pmod 连接器,用于评估多种类型的视觉 AI 应用。这种入门套件使用简便,从开箱到开发应用,用时不到一个小时。参见图 5。
Kria SOM 系统级灵活性实现面向未来的产品
成套的应用专用解决方案和固有的性能优势令 Kria SOM 成为全新嵌入式设计的理想选择。除此之外,它还可为工业市场提供多项长期商业以及技术优势。
工业市场的特征是要求严苛环境下的长生命周期。这里的长生命周期是指在更宽泛的工作温度范围下承受湿度、冲击和振动的长使用寿命。工业级 Kria SOM 能在 100°C 结温、80% 相对湿度下提供 10 年的使用寿命。此外,它还能承受最高 40g 的冲击和 5g RMS的振动。
对一些客户而言,长生命周期也指长期供货。就赛灵思 SOM 产品而言,工业级解决方案的供货期至少为 10 年。这是 Kria SOM 的一项重大优势,因为 DDR4、QSPI、eMMC、TPM2.0 等各类组件和电源管理器件的价格和供货可能存在诸多变数。赛灵思可帮助用户减少对这些细节的关注,因为长生命周期只是Kria SOM 的众多价值之一。Kria SOM 模型还可内在地允许客户根据出货量涨跌造成的业务需求,从 SOM
过渡到成品芯片。
从技术的角度,Kria SOM 具备自适应器件基础,可为用户提供重大的灵活性优势。这些系统级灵活性可通过加速应用的未来更新得到进一步强化。例如,一项对 DPU 性能的研究揭示,从 INT8 升级到 INT4 能提高硬件性能 77%,同时减少逻辑占用和片上存储器占用。也能部署高速可扩展的量化神经网络推断(FINN)这样的降低精度的推断架构,因为 Kria SOM 硬件会随着时间的推移不断改进,可以在部署到实地后进行
升级。这与固定的 GPU 架构相比完全相反。
灵活适应市场趋势
有时候在市场的推动下,可能发生从一种技术或接口向另一种技术或接口迁移的情况。而 Kria SOM 也能适应这些外部力量的作用。赛灵思可编程 I/O 和内部可编程逻辑能支持从 MIPI 等成像标准向 SLVS-EC 转型,乃至从 SLVS-EC 1.0 版向 2.0 版转型,从而支持 2 倍的数据速率。
Kria SOM 灵活性的另一个环节是它们是云原生的。它们可以让用户迅速、无缝地在边缘和云之间灵活分配工作负载。在需要加快响应速度的时候,其他物联网解决方案所受限制过大,无法可靠地处理云工作负载。但是 Kria SOM 可支持许多最常用的云框架。就部分云解决方案而言,比如采用 Greengrass 框架的AWS,运行在云上的应用可以无缝迁移到边缘,反之亦然。根据大多数工业资产的预期使用寿命和耐久度,Kria SOM 专为满足工业级使用寿命的要求量身打造。
从 Kria SOM 入手
正如本白皮书通篇所介绍的那样,对于希望在量产系统中发挥 FPGA 技术的优势,但不知道从何着手的嵌入式开发者和 AI 软件开发者来说,Kria SOM 是理想的解决方案。此外,Kria SOM 还能消除设计流程中一些比较耗时的环节,从而为 FPGA 专家提高了自适应 SoC 硬件的设计效率并降低了风险。
随着赛灵思和合作伙伴的不懈努力,Kria SOM 开发者生态系统将持续增长,不断提供更多加速应用,强化 Kria SOM 系列和入门套件,大幅缩短掌握赛灵思自适应计算技术的性能和灵活性所需的时间。设计者通过https://china.xilinx.com/products/som/kria.html,可以立即开始评估当前的 Kria SOM 产品组合。为帮助设计者入门,赛灵思还提供文档、视频和培训资料。设计者可以在赛灵思应用商店购买入门套件和附件包,查看 Kria 加速应用,然后找出最适合自己的应用。