性能超越 GPU 4倍/超CPU 90倍 全球最快的数据中心和AI加速器卡亮相赛灵思开发者大会 (XDF)

10月16日, 赛灵思开发者大会(XDF)北京站在北京国际饭店举办。本次大会将围绕“学习,交流,分享”为主题,分享当下热门应用、创意以及设计案例,华为、阿里云、浪潮等数十家国内外参展商在现场演示以及指导。

发布全球最快的数据中心及AI加速器卡Alveo

会上,赛灵思公司(Xilinx, Inc.)推出了一款功能强大的加速器卡——Alveo,用来大幅提升云端和本地数据中心中业界标准服务器的性能。

赛灵思总裁及首席执行官Victor Peng先生介绍全球最快的数据中心及AI加速器卡Alveo

据介绍,Alveo 加速器卡针对各种类型的应用提供显著的性能优势。客户在运行实时机器学习推断以及视频处理、基因组学、数据分析等关键的数据中心应用时,有望以较低时延实现突破性的性能提升。就机器学习而言,Alveo U250实时推断吞吐量比高端 CPU高出20 倍,相对于高端 GPU等固定功能的加速器,能让 2 毫秒以下的低时延应用性能提升 4 倍以上。此外,Alveo 加速器卡相对于 GPU 能将时延减少 3 倍,在运行实时推断应用时提供显著的性能优势。数据库搜索等一些应用可从根本上得到加速,性能比 CPU 高90 倍以上。

Alveo 得到合作伙伴和 OEM 厂商生态系统的支持,OEM 厂商开发和认证的关键应用涵盖 AI/ML、视频转码、数据分析、金融风险建模、安全和基因组学等。14 家生态系统合作伙伴开发完成的应用可立即投入部署。这些生态系统合作伙伴包括以下公司:Algo-Logic Systems Inc、Bigstream、BlackLynx Inc.、CTAccel、Falcon Computing、Maxeler Technologies、Mipsology、NGCodec、Skreens、SumUp Analytics、Titan IC、Vitesse Data、VYUsync 和 Xelera Technologies。此外,顶级 OEM 厂商也在同赛灵思合作,认证采用 Alveo 加速器卡的多个服务器 SKU,包括 Dell EMC、Fujitsu Limited 和 IBM 等,此外还有 OEM 厂商会加入进来。

赛灵思的数据中心副总裁 Manish Muthal 指出:“ Alveo 加速器卡的推出进一步推进了赛灵思向平台公司的转型,使不断增长的应用合作伙伴生态系统以比以往更快的速度加速创新。我们很高兴客户对 Alveo 加速器的高度兴趣,也很高兴与我们的应用生态系统展开合作,共同向客户推出采用 Alveo 的各种可产品化的的解决方案。”

OEM 厂商对此次发布给予高度评价。

Dell EMC 服务器和基础设施系统的产品管理和市场营销高级副总裁 Ravi Pendekanti :“现代数据中心中基于 FPGA 的加速解决方案越来越受欢迎,这是因为可编程和可重编程的加速器能轻松满足用户需求。我们与赛灵思合作共同打造业界一流的加速解决方案,将让来自视频内容流、风险管理和金融服务等一系列不同应用领域的客户共同受益。”

富士通公司副总裁兼网络产品副主任 Masaki Taniguchi :“富士通恭喜赛灵思发布其全新板级产品和解决方案。随着无人驾驶、远程医疗、虚拟现实等 5G 使用案例的不断发展,基于 COTS 服务器的 vRAN 应用范围有望在今后大幅扩展。富士通公司 和 富士通研究所(Fujitsu Laboratories Ltd.)正在一直与赛灵思合作,共同验证 4G vRAN 系统中关键软件功能的 3 倍性能提升。Fujitsu 期待通过将其 x86 服务器和赛灵思灵活应变的加速板结合起来,打造功能强大的解决方案。”

HPE 的服务器全球业务部副总裁兼首席技术专家 Keith McAuliffe :“赛灵思标准加速板产品的发布激动人心,扩展了迅速崛起的推动高性能需求应用发展的技术领域。我们期待着与赛灵思合作,将其技术推向市场,并帮助我们的客户创造突破性的商业价值。”

IBM 认知系统副总裁 Steve Sibley :“IBM 推出 Power Systems AC922 服务器,展现出我们能为企业 AI 培训提供最佳平台。IBM 认识到,推断技术是全面的端到端 AI 平台的关键组成部分,POWER9 在数据移动领域的 I/O 带宽领先地位与赛灵思新推出的 Alveo U200 加速器卡理想配对,为企业提供推断技术。”

与所有赛灵思技术一样,客户能对硬件进行重配置,从而针对工作负载迁移、新标准和更新的算法进行优化,而且无需支付替代产品衍生的成本。Xilinx Alveo U200 和 U250 加速器卡现已面向市场,起价 8995 美元,用户也可选择先在云端试用 Nimbix。

发布业界首款自适应计算加速平台 Versal

同时,赛灵思也宣布了 业界首款自适应计算加速平台 (Adaptive Compute Acceleration Platform ,ACAP)推出 Versal,为所有的开发者开发任何应用开启了一个快速创新的新时代。Versal ACAP 整合标量处理引擎、自适应硬件引擎和智能引擎以及前沿的存储器和接口技术,能为所有的应用提供强大的异构加速功能。不过,最重要的是, Versal ACAP 的硬件和软件均可由软件开发者、数据科学家和硬件开发者进行编程和优化,这要归功于其符合业界标准设计流程的一系列工具、软件、库、IP、中间件和框架。

赛灵思产品及技术营销高级总监Kirk Saban介绍ACAP自适应计算加速平台Versal如致力于为所有开发者、所有应用开启快速创新新时代

Versal 产品组合基于 台积电(TSMC)的 7 nm FinFET 工艺技术,是第一个将软件可编程性与特定领域硬件加速和灵活应变能力相结合的平台,这对于跟上当今快速的创新步伐至关重要。该产品组合包括 6 个系列的器件,其独特架构针对云端、网络、无线通信乃至边缘计算和端点等不同市场的众多应用提供了可扩展性和 AI 推断功能。

赛灵思软件及IP产品执行副总裁Salil Raje激情描绘灵活应变的新型器件将如何加速当今AI时代各种创新的整体应用

赛灵思总裁及CEO Victor Peng 指出:“随着 AI 和大数据的爆炸性发展以及摩尔定律的放缓,行业已经走到了一个关键的转折点。芯片设计的周期已经无法跟上创新的脚步。Versal 历经 4 年的开发,是业界首款 ACAP。我们对其进行了独特设计,支持所有类型的开发者通过优化的软硬件来为他们的整体应用提速,同时具备即时的灵活应变能力,从而能够跟上科技快速发展的步伐。在业界需求最迫切的时刻 ACAP 雪中送炭。”

该产品组合包括 Versal 基础系列( Versal Prime),Versal 旗舰系列 (Versal Premium旗舰)系列和 HBM 系列,能针对要求最严格的应用提供业界领先的性能、连接性、带宽和集成功能。此外,该产品组合还包括 AI 核心系列(AI Core),AI 边缘系列 ( AI Edge) 和 AI 射频系列(AI RF),采用突破性的 AI 引擎。AI 引擎是一种新型硬件模块,专为解决各种应用低时延 AI 推断的新需求而设计,同时支持高级 DSP 实现方案,满足无线和雷达等应用要求。它与 Versal 自适应硬件引擎紧密结合,支持整体应用加速,也就是说软硬件都能调节,从而确保最高性能和效率。

该组合中率先亮相的是 Versal Prime 系列,跨多个市场提供广泛的适用性,同时推出的还有 Versal AI Core 系列,相对于业界领先的 GPU[1],AI 推断性能预计能提升 8 倍。

VERSAL AI 核心系列

Versal AI 核心系列提供该系列最高计算性能和最低时延,实现突破性的 AI 推断吞吐量和性能。该系列针对云端、网络和自动驾驶技术进行了优化,提供业界最广泛的 AI 和工作负载加速功能。Versal AI 核心系列 有 5 款产品,提供 128 到 400 个 AI 引擎。该系列包括双核 Arm Cortex-A72 应用处理器、双核 Arm Cortex-R5 实时处理器、256KB 片上 ECC 存储器、超过 1900 个专为高精度低时延浮点运算而优化的 DSP 引擎。此外,它还包括 190 多万个系统逻辑单元以及超过 130Mb 的 UltraRAM、高达 34Mb 的块 RAM 和 28Mb 分布式 RAM 和 32Mb 新加速器 RAM 块,任何引擎都能直接访问,这也是 Versal AI 系列的独特之处,而且都能支持定制存储器架构。该系列还包括 PCIe Gen4 8 信道和 16 信道以及 CCIX 主机接口、功耗优化型 32G SerDes、多达 4 个集成型 DDR4 存储器控制器、多达 4 个多速率以太网 MAC、650 个高性能 I/O(用于 MIPI D-PHY)、NAND、存储级内存接口和 LVDS、78 个多路复用 I/O(连接外部组件)和超过 40 个 HD I/O(3.3V 接口)。以上所有器件均通过业界一流的片上网络 (NoC) 实现互联,具有多达 28 个主/从端口,以低时延提供每秒多 Tb 带宽,而且提供高功率效率和原生软件的可编程性。完整的产品列表现已发布。

THE VERSAL PRIME 系列

Versal Prime 系列经过精心设计,适用于多个市场的广泛应用,并针对各种工作负载的连接性和在线加速进行了优化。这款中端系列包括 9 款产品,每款产品都采用双核 Arm Cortex-A72 应用处理器、双核 Arm Cortex-R5 实时处理器、256KB 片上存储器(带 ECC)、超过 4000 个专为低时延高精度浮点运算优化的 DSP 引擎。此外,它还包括 200 多万个系统逻辑单元,结合 200Mb 以上 UltraRAM、超过 90Mb 的块 RAM 以及 30Mb 分布式 RAM,能支持定制存储器架构。该系列还包括 PCIe Gen4 8信道和 16 信道以及 CCIX 主机接口、功耗优化型 32Gb 每秒的 SerDes 和主流 58Gb 每秒的 PAM4 SerDes、多达 6 个集成型 DDR4 存储器控制器、多达 4 个多速率以太网 MAC、700 个高性能 I/O(支持 MIPI D-PHY)、NAND、存储级内存接口和 LVDS、78 个多路复用 I/O(连接外部组件)和超过 40 个 HD I/O(3.3V 接口)。以上均通过业界一流的片上网络 (NoC) 实现互联,具有多达 28 个主/从端口,以低时延提供每秒多 Tb 带宽,而且提供高功率效率和原生的软件可编程性。完整的产品列表现已发布。

VERSAL 工具和软件

Versal 产品组合得到开发环境支持,提供全面的软件堆栈,包括驱动程序、中间件、库和软件框架支持。关于软件编程工具的更多详情将于明年发布。

赛灵思目前正通过早期试用计划与多家关键客户合作。Versal Prime 系列和 Versal AI Core 系列将于 2019 年下半年上市。