在实时互动场景中,视频画质是影响用户互动体验的关键因素,从流畅、标清到高清、超高清等,分辨率更高的图像往往比低分辨率的图像包含更多的细节和信息,给用户的视频互动带来更好的体验,这也促进了用户在实时互动中对视频画质的要求越来越高。
然而在很多实时互动场景中,受到设备性能、传输成本、用户带宽等限制,传输的往往是低分辨率的视频,为了提升视频画质质量,进而提升用户的观看体验,需要借助视频超分辨率技术,在用户端将接收到的低分辨率视频重建成纹理丰富、细节清晰、观看体验佳的高分辨率的视频,这个过程往往会用到超分技术。
超分算法在业内已经不是新词,在介绍声网的多倍实时超分前,先来看看目前行业主流的超分算法都有哪些?超分算法主要分为非实时与实时处理两种类型。我们经常会看到某某视频网站将一些年代久远、低分辨率、低清晰度的老视频转换成当前主流的720p、1080p、2k 的高分辨率视频,这种是在线视频行业比较主流的基于云端服务器处理的“非实时超分算法”,这类超分适用的场景是追求更高分辨率、更清晰的视频观看体验,对处理速度的实时性没有要求,并且算力充足,可以让年代久远的视频,焕发新的活力。但非实时超分算法计算量普遍比较大,只能适用于对实时性没有要求的场景。
在实时互动的场景中,就需要用到实时处理的超分算法,这其中主要包含云端、终端处理两种方式,在云端服务器实时处理的超分算法计算量比第一种非实时的小,在超分效果和处理速度做了权衡,保证较好的超分效果的同时,可以满足服务器上实时处理的要求。但弊端也非常明显,由于需要在 GPU (图形处理器)服务器上部署,并且一台服务器只能同时处理有限路视频,当处理大量并发的实时视频流时,则需要部署大量的 GPU 服务器,这种算法的使用成本比较高,而终端的超分算法可以很好的解决这个问题。
终端超分算法可在用户的终端进行视频播放时,对视频画面进行实时后处理,从而在提升视频观看画面主观视觉效果的同时不增加企业传输带宽成本。目前业内很多主流的终端实时超分算法更集中在PC端,PC端的设备相对可以提供更强的算力,实现高性能的视频画质实时增强。但当下随着实时互动场景的爆发,很多 RTE 场景集中在移动端,在移动终端用户的设备性能参差不齐,这就要求移动端实时超分的复杂度必须极低,这样才能在大部分移动设备中做到实时处理。如何在超低计算量的情况下还保持较好的视频超分效果,这成为了实时超分领域内的难点。
业内首个! 可运行于移动端的多倍实时超分算法
针对移动端的实时超分难点,声网人工智能算法团队经过持续的技术钻研,正式推出了业内首个基于移动端实时处理的多倍超分算法,该算法的优势是成本低、功耗小,不需要部署 GPU 服务器,仅依靠移动端设备自身的CPU、GPU 或 NPU 来实时超分,以较小的算法计算量实现视频分辨率的多倍超分,有效增强了视频的画质,并降低视频传输的成本。
由于移动端的算力有限,并且对算法的功耗、模型大小要求十分苛刻,这类算法的研发难度是极具挑战性的,既要保持较好超分效果,也要满足移动端实时处理的要求。传统超分的技术原理可以简单理解为插值+锐化,插值是将低分辨图像放大为高分辨率图像,锐化是使图像边缘更清晰的一种图像处理方法,插值法和锐化方法,都是人工基于观察、总结和试验出来的方法,存在一定的局限性,常常出现图像放大后出现模糊、锐化过度的现象。
而声网移动端实时超分的技术原理是基于深度学习算法进行丰富的视频数据训练,从大量的低分辨图像和高分辨图像对,有监督地学习低分辨到高分辨率的映射关系,实现图像放大后,细节丰富、画面清晰的效果,其超分效果、自适应能力明显优于传统的超分方法。
为了更直观的展示声网实时超分算法的应用效果,一段视频demo展示了在采集端 360p 分辨率的视频经过声网多倍超分到 1080p 后的效果。
声网多倍实时超分算法的核心优势:
移动端最高支持3倍实时超分:声网多倍超分算法可以做到在移动端实时处理,支持2倍与3倍超分,例如360p 两倍超分720p,240p 3倍超分 720p,360p 3倍超分 1080p,并且经过测试,与行业其他超分算法相比,在同等计算量的条件下,声网的实时超分效果与画质表现更胜一筹。
覆盖机型广,中低端机型也能实时处理:声网多倍超分算法在移动端的机型覆盖非常广,iOS 可覆盖iPhone6s 及以上机型,能够覆盖95%以上的 iOS 视频用户;Android 覆盖所有中高端机以及部分低端机,能够覆盖85%以上的安卓用户。
CPU 消耗、SDK 内存消耗低:声网多倍超分算法对移动端设备的性能消耗占比极低,有着出色的能耗表现,例如在移动端 360p 超分至 720p,超分的模型跑在设备的 GPU上,几乎不会增加CPU 消耗,单帧处理耗时平均在 10ms以内。在1对1视频通话场景中,360p/15fps 的视频开启2倍或3倍超分后,SDK 的内存消耗只增加10%左右。
声网实时超分算法目前适用的场景主要分为三种:
IoT平台的实时互动场景:在智能硬件终端对音视频SDK的功耗要求非常高,一旦视频通话的视频传输太占功耗,就会造成硬件的续航时间下降,发烫发热等,对此,声网实时超分可以将硬件设备端的720p 视频以360p 进行采集,并通过360p 进行传输,在接收端将接收到的360p视频增强到720p,不仅保证了智能硬件终端的视频画质,还降低了SDK功耗,增加了硬件的续航时间。
带宽受限的实时互动场景:在很多实时互动场景中由于网络带宽受限,无法传输高分辨率的视频,可通过声网实时超分进行降分辨率传输,将带宽受限的影响降到最低,最终在接收端进行恢复原视频的画质。
视频首帧出图清晰:在视频通话开启时,用户都会希望第一眼映入眼帘的画面就很清晰,但在一些实时互动场景中,为了快速出图,刚出来的视频画面是低分辨率,过一会才会变成清晰,从视频小流切到大流。通过声网实时超分可以在视频小流阶段就对视频画质进行放大增强,从而实现首帧的画面达到清晰,同时首帧出图的时延也不会受到影响。
如何评价实时超分算法的实现效果?
介绍完声网实时超分的特点、优势以及应用场景,很多人可能想问最后如何去衡量实时超分的效果?这里就要说到上一期声网 VQA 的技术解析文章,声网 VQA 利用深度学习算法实现对实时互动场景接收端视频画质主观体验 MOS 分的评估,解除了传统主观画质评估对人力评分的高度依赖,从而极大提高视频画质评估的效率,使实时的视频质量评估成为可能。
目前声网多倍超分已跟多个客户进行了集成,并得到客户高度认可。