英特尔在半导体领域称雄几十年,凭借的就是其x86架构和曾经遥遥领先竞争对手的半导体制造工艺。然而在过去的三四年,英特尔在10纳米工艺上却遇到了阻碍,甚至被曾经望尘莫及的竞争对手完成了弯道超车,并纷纷投入量产。痛定思痛的英特尔于2019年,一口气发布了四款基于10纳米工艺的芯片产品, Agilex™ FPGA 正是其中一款基于英特尔10纳米工艺的旗舰级FPGA产品。 经过近两年的评估期, Agilex™ FPGA 已于2021年1月进行大规模量产出货。5月13日,英特尔数据平台事业部副总裁兼可编程解决方案事业部(PSG)产品营销总经理Deepali Trehan召开媒体见面会,并在一对一采访中向媒体披露了更多技术细节。
性能巅峰:Agilex™ FPGA简介
英特尔® Agilex™ FPGA 设备采用异构 3D 系统级封装 (SiP) 技术,集成了英特尔首款基于 10 纳米 SuperFin 技术的 FPGA 架构和第二代英特尔® HyperFlex™ FPGA 架构,还集成了四核 Arm* Cortex-A53 处理器,以提供高度的系统集成性。Agilex代表着全行业最佳的收发速率,达到了每秒116Gbps。此外,测试芯片还可以达到每秒 224Gbps。英特尔® Agilex™ FPGA 目前可提供业界领先的能效和性能:
- 相比竞争对手的 7 纳米 FPGA,视频 IP 性能提升了 50%
- 相比竞争对手的 7 纳米 FPGA,结构性能功耗比提升了约 2 倍,有助于帮助数据中心等应用实现更加灵活、高能效的设计
- 英特尔® Agilex™ FPGA 将数据中心、网络和边缘应用的性能平均提升了 45%
- 相比前代 FPGA,结构性能提升了高达 49%,可有效支持高速 5G 前传网关应用
英特尔® Agilex™ FPGA平面图(未按比例绘制)
据介绍,英特尔® Agilex™ FPGA 系列包含F、I、M三个系列,特别适用于需要灵活性,敏捷性和高性能的应用,例如边缘计算,网络,云或数据中心加速器。对于三个不同的系列,Agilex F系列在量产当中,此次重点介绍的正是该系列的产品;I系列在实验室当中,预计将会在本季度向客户发货;M系列还在开发当中,目前并没有公布量产时间。
Agilex是原FPGA巨头Altera在2015年底被英特尔收购、并成为其可编程方案事业部(PSG)后正式推出的一个全新的FPGA系列。Agilex是Agile(敏捷)和Flexible(灵活)的合二为一,而这两个特点正是现代FPGA技术最为核心的两大要点。除了Altera的技术积累之外,Agilex的成功更离不开英特尔核心技术的加持。对于芯片制程而言,在相同的工艺节点下,英特尔的工艺往往具有更优异的性能,这也是业界公认的事实。现如今,英特尔的十纳米工艺已经达到稳定并量产,这也正是它敢于正面叫板竞争对手的底气所在。
棋逢对手:与赛灵思的巅峰对决
随着边缘、5G网络以及数据中心的不断发展,三大领域都呈现了一个共同的趋势,即数据的爆增,快速变化的环境,以及对于快速部署的需求。FPGA因其灵活性,在这一个发展趋势中,越来越受到客户的青睐。为了稳固FPGA实力和扩大市场占比,近几年,赛灵思和英特尔除了升级自身技术和产品阵列外,均在并购和构建生态系统方面加大了火力,进一步挖掘FPGA快速部署的上升空间。
相比其它7纳米FPGA的卓越表现
Deepali Trehan提供了一系列 Agilex™ FPGA 与赛灵思7nm Versal进行对比的数据。英特尔® Agilex™ FPGA -2V FPGA 相对于 Xilinx Versal -2M 的对比数据显示,Agilex™ FPGA比Versal的逻辑结构性能功耗比高约2倍,在视频IP性能上有超过50%的性能提升,逻辑结构性能功耗比高约2倍。具体:
- Warp图像转换器快32%,
- OSVP 1X 可扩展视频处理器快48%,
- OSVP 8X 可扩展视频处理器快33%,
- MPVDMA 多端口视频直接内存访问快71%,
- Combiner 视频流合并快73%
据介绍,Agilex中的视频IP块都是由Omnitek所开发的。Omnitek是一家初创企业,主打视频加速与推理,原来的专长是专为赛灵思的FPGA进行IP块开发。2019年Omnitek被英特尔收购,Agilex中所使用的IP块就是此前专为赛灵思的设备架构来进行开发的。在Agilex上使用时,Omnitek基于Agilex的架构进行了简要的改变,仅仅改变了内存和DSP实例。
FPGA是一种非常好的能够提升能源效率的架构,可以说它的应用非常广泛,跨整个数据中心、云以及企业级,以及通过无线或者是有线网络来实现,包括在边缘采取嵌入式的方式。FPGA最大的价值在于灵活性,所以它可以服务于在云、网络和边缘端的各种应用程序。双巨头格局下,且看FPGA双雄英特尔和赛灵思还将如何创新,不断收获新城池。
黑科技加持:架构再次创新
据介绍,Agilex是专门为以数据为中心的世界设计的,目的是在数据的处理、存储以及移动过程当中提供行业的领导力。Agilex的性能特征,包括行业内最高的达到每秒116Gbps的收发速率,以及支持PCIe Gen5、CXL与至强进行联合使用,DDR5、HBM以及傲腾持久内存进行兼容。对于产品性能,Deepali Trehan表示,英特尔此前对Agilex性能的预期,是在最大时钟速率(Fmax)上比上一代14nm Stratix 10提高40%,但最新的实测数据显示是高出了45%的性能。
在设计当中,Agilex第一款完全从一开始的概念到设计、到实施、到验证以及到最后的生产制造都是端到端在英特尔全方位开发的FPGA。我们来看看Agilex究竟是通过怎样的设计来实现这些优势的。
10纳米SuperFin技术
Agilex™ FPGA是基于10纳米SuperFin技术,这也是目前世界上最先进的FinFET制程技术之一。它融入了诸多新技术,比如自对齐四重曝光(SAQP)、钴局部互连、有源栅极上接触(COAG)等。SuperFin晶体管技术的推出,是英特尔有史以来最为强大的单节点内性能增强。凭借该技术,英特尔实现了其新一代的10nm工艺可以媲美其初代的7nm工艺。
此外,Agilex™ FPGA还提供了提供面向FPGA优化的金属层堆叠和晶体管,以及融合了英特尔专有嵌入式多芯片互连桥接(EMIB)集成的3D异构系统级封装(SiP)技术,所有这些都有助于每瓦性能的提升,降低耗散功率,以及减少成本的支持。
新一代HyperFlex寄存器结构
英特尔在Stratix10 FPGA中首次引入了HyperFlex架构。它的主要思想就是在FPGA的布线网络上,加入很多名为Hyper-Register的小型寄存器,这样可以把原本比较长的时序路径分割成多个较短的路径,从而提升FPGA的时钟频率。不过HyperFlex在实际应用中还是存在很多问题,比如很多情况下并不会用到所有的hyper-register,这就需要每个寄存器都配备一个2:1选择器用来选通。此外,这样的架构还会带来较大的额外延时。在赛灵思推出的ACAP中,引入了名为“Imux寄存器”的新结构,并且对上述问题进行了针对性的改进。
英特尔在第二代Hyperflex架构中也对这些问题进行了大幅度的改进,尤其是对互连路由寄存器进行了重新设计,以减少延迟和面积,这个重构的互连结构减少了负载和延迟,用较短的线路替代了高扇出线路,增加了直接逻辑块输出,并使用较短的连接改进了点对点的路由,减少了延迟并且缩小了面积。并在资源配置上也进行了优化,从而降低功耗和提高性能。
基于Chiplets架构的收发器设计
Chiplets是一种物理IP模块,它代表了一种创新的方法,被认为是处理器的未来。Chiplets通过用多个较小的芯片代替一个硅芯片来有效地绕过摩尔定律,这些芯片在统一的封装解决方案中一起工作。与单片微芯片相比,这种方法提供了更多的硅来添加晶体管。
收发器眼图,224 Gbps PAM4测试芯片
在收发器的设计上,Agilex采取了异构基于Chiplet的一种设计,因此它可以针对具体的应用程序需求,可以适用于任何代工厂,制程节点,以及任何IP开发商,所以它真正的带来了一种自由度,使得用户可以根据应用的需求来具体开发行业领先的功能。仅此一项,英特尔就将单个收发器通道的速度从58Gbps提升到了代表着全行业最佳收发速率的116Gbps。
基于chiplet的开发,英特尔还在继续挖掘。Deepali Trehan说:“Agilex I系列包括一个特别的chiplet,它支持F系列中没有的CXL接口;M系列包括一个增强的核心结构chiplet,让接口支持DDR5和英特尔傲腾持久内存。如果需要,我们现在的测试芯片还可以达到每秒224Gbps。”
进一步优化Quartus® Prime软件
在软件方面,Intel对Quartus软件进行了极大的优化提升,和Agilex同步开发。Intel优化了重定时感知综合,包括在布局布线以及全局重定时算法方面得到了优化,从而实现它的最大性能,另外通过精细的寄存器重新定时和时钟偏斜调度,实现并发的建立和保持时间优化,达到签核质量(signoff-quality)的时序分析。
Intel同时还开发了多个编译流程来符合客户不同的开发需求,以满足他们提升运行时间以及快速故障排除方面的需求。通过这些在软件方面所付出的努力,将编译时间下降了45%。同时Intel又进行多达135种的Design Assistant规则,以便在规则方面实现好的控制。通过这些努力可以实现快速的编译以及减少在FPGA方面的迭代的需求。
典型应用案例:SmartNIC
SmartNIC是英特尔Agilex™ FPGA和其至强处理器进行联合使用的一个很好的例子。基于以太网的NIC如今在整个网络中都得到广泛使用,提供服务器、CPU和其它网络处理元件的端点连接性能。英特尔在SmartNIC领域进行了大量投资,并制定了新产品的长期路线图,以保持领先优势。
英特尔Agilex FPGA对于快速增长的英特尔SmartNIC品类至关重要。在至强当中插入Agilex FPGA,可以用于至强处理器工作负载的加速。这样CPU的一些管理功能进行卸载,它可以直接访问CPU和RAM,而不需要用虚拟化的方式。通过全新的优化,英特尔Agilex FPGA提供比竞争对手的7纳米FPGA高30%的逻辑结构性能和高2倍的结构每瓦性能,能够为FPGA加速的应用实现更高的性能、更快速的实时功能和更低的总体拥有成本。
—— 结束语 ——
当前,处理器巨头都在重点布局5G、数据中心和边缘三大领域。英特尔认为,这三大领域的需求多种多样而且不断变化,面临的挑战是继续在核心领域取得进步,例如提高数据传输和处理的性能,同时还要满足每个具体领域的独特需求。具体来看,在5G方面,基础设施的某些环节需要超高能效,而无线应用中常见的信号处理功能需要高性能;在云和企业领域,不断变化的基础设施和应用加速中有相当多的工作负载需要高性能和高能效;在边缘,需要更高的计算力来满足对更高的交互、更多富媒体内容和更低的时延的需求,同时仍需满足严苛的功耗、散热和空间限制要求。
以数据为中心的世界需要更高的能效
所有正在发生行业转型的重要技术,包括边缘、5G、云计算等,背后都是数据的爆增所驱动的。无论是网络、数据中心还是边缘都有大量激增的数据处理要求,数据的爆增正在驱动着比以往更多的对计算力的要求。因此对于整个参与处理的所有部件以及产品,提升其性能就变得至关重要。但性能提升并不意味着功耗的下降。当前,能耗的不断增加导致TCO(即总拥有成本,包括产品采购到后期使用、维护的成本)巨大的提升,非常缺乏可持续性,同时对环境产生巨大影响。大家都在寻求降低功耗的方式,降低功耗的目的是一方面去满足不断增长的数据处理需求,另一方面也要不断提高能源效率来降低功耗,也就是说大家关注的是每瓦性能这样的指标。越高的每瓦性能就越好,这意味着能有更优的计算力以及更少的能源消耗。
除此之外,还需要更高的灵活性。要想成功,解决方案提供商必须通过得到良好支持的开发流程快速地把处理、内存、数字信号处理、专门接口和FPGA灵活性整合到高度集成化的组件中,满足目标市场的确切需求。英特尔正在转型以加速增长。他们已经围绕关键转折性技术建立了庞大的业务,例如云、人工智能、5G和智能自主边缘。英特尔拥有针对从边缘到云的工作负载的广泛计算架构,而英特尔FPGA产品是其中的关键组成部分。Deepali表示:“就是对于灵活性需求非常高的时候。加速器方面,可以说发展变化十分迅速,同时会不断涌现出新的用例。一切都是基于应用的,英特尔提供全方位的选择,同时我们又提供统一开发的策略。”