英特尔数据中心GPU Flex显卡编解码能力突出,推动AV1编码普及

2022年8月,英特尔发布了数据中心GPU Flex系列(此前代号为Arctic Sound-M)。在产品投入实际使用的几个月后,2022年12月,中科大洋、亿联网络、火山引擎和当虹科技面向媒体分享了其使用体验,能看到,它在视频编解码方面的能力尤为突出。

首先来看定位。与日常关注度更高的数据中心级显卡定位有所不同,GPU Flex系列主要面向视频转码与传输、视觉AI推理、云游戏、桌面虚拟化等应用场景。

GPU Flex系列不包括用于机器学习训练和HPC高性能计算的场景,后者可以由Ponte Vecchio高性能显卡来承担,当然,也可以用Habana Gaudi来做机器学习训练。

今年发布的GPU Flex系列包括75W的Flex 140(12GB显存)和150W的Flex 170(16GB显存),算得上是功耗比较低的轻量级显卡。

其中,Flex 140是半高设计,Flex 170是全高的设计,两者分别配备了16个Xe内核、16个光追单元和32个Xe内核、32个光追单元,算力最高达256TOPS(INT8)。

英特尔公司市场营销集团副总裁、中国区云与行业解决方案部总经理梁雅莉在介绍GPU Flex系列产品时,强调它能满足智能视觉云的工作负载需求,能提供更出色的媒体转码吞吐性能和支持多达68路实时云游戏流。

接下来,我们看看GPU Flex系列显卡在视频转码与传输、视觉AI推理、云游戏等应用场景中的表现。

媒体处理与传输场景,编解码能力突出

在媒体处理与传输场景中,GPU Flex系列的一大亮点是支持AV1编解码功能。AV1的优势很明显,比如,它是免费的,而H.264和H.265都是需要收费的,但是,AV1编解码的硬件支持普遍差一点,GPU Flex系列看来是要打破这一局面,推动AV1的进一步普及。

AV1还省流量,与常见的AVC(也就是常说的H.264)编码相比,在同样的视频质量下,AV1可节省30%以上的传输带宽。这对于提供在线视频类服务的企业而言,意味着网络带宽成本和数据存储成本将会有大幅的压缩。

将英特尔的Flex 140与英伟达同等功能定位的A10做对比,Flex 140的解码吞吐量优势非常明显,而且,英伟达A10的TDP为150瓦,而Flex 140仅为75瓦,在解码性能和解码效率上,Flex 140优势非常明显。

在H.265(HEVC)转码性能对比中,英特尔数据中心GPU Flex系列140的性能也明显优于英伟达A10,能支持36路的1080p60帧,甚至还能支持1路8K60帧的视频转码。

中科大洋是国内一家大型广电企业,旗下自研的LeoVideo Cloud云转码产品中使用了英特尔数据中心GPU Flex140,实际部署和测试发现,英特尔数据中心GPU Flex140能够解码16路4K并发或4路8K并发或60路1080p的并发。与竞品相比,Flex 140有明显优势。

PSNR是衡量画面质量的一个常用指标,中科大洋在测试中发现Flex 140编码质量比CPU的效果还要好。通常,CPU的编码质量要比显卡效果要好,但效率比较低下,而现在,Flex 140让解码和转码的性能和质量都有了较大提升。

亿联网络是一家远程视频会议服务商,原本是用CPU来做软编解时,效率和性能都存在很多问题。当使用英特尔Flex GPU来做图像的编解、处理、缩放时,让CPU可以专注在业务处理上,从而使得处理的性能和方案整体的可靠性都上了一个新台阶。

云游戏场景降本增效

在云游戏场景中,Flex GPU系列对于降本增效很有帮助。

上图中,英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰展示了如何用两张Flex 170支持120路以上安卓云游戏的能力。

如图所示,英特尔数据中心GPU Flex 170和140可以支持包括《王者荣耀》、《荒野行动》、《狂野飙车9:竞速传奇》等多款热门游戏,一块显卡可以轻松支持几十路游戏在1080p和720p分辨率下进行游玩。

基于英特尔数据中心GPU Flex的云游戏服务可以带来极大的成本优化,除了支持安卓云游戏以外,最近的一次更新中,还宣布支持Windows平台的云游戏,这也将提升GPU Flex显卡的适用性。

火山引擎的云游戏解决方案中使用了GPU Flex。火山引擎系统架构师梁宇表示,Flex 140自带的硬件编解码功能对于该方案中的软硬件的整合和成本控制有很大帮助。

上图展示的是用Flex 140支持火山引擎自研游戏《航海王热血航线》的性能表现,得益于其编码能力,它能支持更多路的游戏。看来,用户想用GPU Flex提供别的云游戏服务也并不是很难。

GPU Flex也非常适合用来做AI推理

上图展示的是GPU Flex做AI视觉推理时候的性能优势,所谓AI视觉推理,考验的是视频流的解码处理能力和AI推理运算能力。与英伟达的A10相比,GPU Flex系列在目标分类、目标检测等推理场景中的表现都更有优势。

当虹科技老片修复系统中使用了GPU Flex系列显卡,通过它来做AI插帧、AI HDR转换、AI超分(提高分辨率)和AI画质增强。修复过程中会涉及很多编解码的操作,通过使用CPU和GPU Flex的组合提高了处理效率,降低了方案的整体成本。

另外,GPU Flex系列显卡的另外一大亮点是支持基于硬件的SR-IOV技术,并且不需要软件授权费用,这对于桌面虚拟化场景非常有帮助,可以帮助用户优化总体拥有成本,省下一大笔钱。

结束语

英特尔的数据中心显卡市场的未来表现还是很值得期待的。

除了本身的GPU相关技术积累以外,它还可以利用英特尔至强可扩展处理器的生态优势。比如,用户在用英特尔GPU和英特尔CPU时候能开启一项叫Deep Link的技术,它能智能地把一部分工作负载放在GPU上,一部分工作负载放在CPU上,以此来提升工作效率。

英特尔能在框架层面能解决应用生态的难题。任何新的硬件都需要漫长过程来构建生态,英特尔规划设计了一个叫oneAPI的框架,它能让用户在不同架构下开发的应用运行在其它异构产品上,比如,它可以让一个应用既能运行在CPU上,也能运行在GPU甚至是FPGA上。

在走向市场方面,得益于英特尔在企业级市场上的特殊地位,GPU Flex系列显卡得到了新华三、浪潮、宁畅、宝德、超聚变在内的OEM的支持,在第一时间就对于Flex系列GPU的适配工作,支持Flex GPU的服务器产品已陆续上市。

下一阶段,此次GPU Flex系列的亮点在于编解码以及各种偏轻量级的工作负载,强在专卡专用效率更高,而在不久的未来即将发布的适合重型负载的Ponte Vecchio其实也非常值得期待。