在中国,93.4%的上网者都是网络视频、短视频的受众。随着宽带提速,5G 普及,用户对网络视频播放速度和清晰度需求水涨船高。AI 技术让音视频有了更多玩法,例如用户对视频的美化与互动,商家借助智能化视频推广,另外,AI 技术也被用在视频领域修复电影资料等。不过从技术层面来看,AI 视频开发和应用的新场景,让视频开发者面临着新的智能化视频技术挑战。
具体来说,与以往的视频开发链路有所不同,在智能音视频开发链路里,包含了例如人脸识别、图像分割等 AI 相关的新技术;通过 AI、CV 逐帧处理视频,比普通视频处理所需资源开销更大,对移动端性能要求也更高;而资源需求也会引起移动端硬件功耗增加,手机发热,更损伤用户的使用体验。面对新的视频应用趋势,开发者需要熟练地运用 AI 新技术、优化资源和性能的更多矛盾、硬件功耗,每一件都是一个专业视频开发者要耗费大量时间和精力才能搞定的难点。
业界目前将 AI 用于视频处理,大多是从服务器侧实现。随着移动设备不断刷新硬件高配置,以及网络条件的改善,端侧的智能化视频其实蕴藏了更多的潜力有待挖掘。
针对智能化视频开发的这些痛点,华为在2021 年 7 月推出了面向移动端开发者的多媒体开放能力体系——多媒体管线服务AV Pipeline Kit(以下简称为AV Pipeline)。近日,CSDN专访了 AV Pipeline 开发团队的多位技术研发负责人,深度揭秘和解析了 AV Pipeline 的架构设计,以及最核心的两项特性:视频超分与声音事件检测的核心技术。
轻量级开发框架,“拼乐高”式的插件化音视频开发
据介绍,AV Pipeline 里包含轻量级多媒体开发框架和多种高性能的音视频处理插件。多媒体开发框架负责解析配置文件并将多个插件按照配置文件中的编排关系连接组成一个流水线,实现特定的媒体业务,如播放、录制、编辑等。音视频处理插件负责完成特定的任务,例如解封装、解码、滤波等。
AV Pipeline 框架旨在降低媒体应用的开发难度,让开发者们可以通过 AV Pipeline 自定义流水线编排,将原本需要几千行代码才能实现的 AI 视频功能,只通过几十行代码,将多种高性能插件快速集成到应用中,轻松实现更加丰富的多媒体功能。
详细来说,通过定义插件的标准接口和数据流在插件之间的流转方式,开发者只需要按照标准接口完成插件开发,就可以迅速构建出新型的媒体场景。视频开发者如果需要在(端侧)视频采集、播放、编辑等场景中加入 AI 和计算机视觉、音频等算法,采用 AV Pipeline 框架即可。
AV Pipeline 已预置可应用在播放场景的 Pipeline,如视频播放、视频超分、声音事件检测,提供 Java 接口,同时支持开发者通过 C++接口直接调用单个预置插件。开发者可以如乐高积木式搭建,将不同 Pipeline 插件按不同的连接关系串联起来形成新的业务场景。另外,若预置插件或预置Pipeline 不满足使用要求,开发者可以开发自定义插件与 Pipeline。
揭秘视频超分与声音事件检测,以深度学习实现“升体验、降成本”
端侧最高 3 倍超分背后,采用深度学习与 NPU 方案
手机和移动设备可以随时随处播放视频,不过网络质量会因为地点条件各有不同。为了降低网络差异对观众观看体验的影响,视频 App 一般会针对网络调整降低视频码率,减少播放卡顿。另外,用户对画质要求水涨船高,视频App 需在服务器端存储高清视频,大大增加了视频网站服务器端的成本开支。
这种情况下,AV Pipeline 用端侧超分技术,提升画质和观看体验,同时降低运营成本,堪称一举两得。而这背后,是AV Pipeline 采用 AI 深度学习对超分功能进行了设计和应用。
根据技术专家介绍,首先在模型方面 ,AV Pipeline 利用卷积神经网络的非线性拟合能力,去近似自然场景中高分辨率图像到低分辨率图像的复杂的退化过程,实现更为真实的超分效果。其次,在数据工程上,除超分素材里庞杂的真实采集的数据外,AV Pipeline 也会构造接近真实场景的合成数据,用于模型的优化过程。最后也是非常重要的一点,为了突破手机端侧的性能瓶颈,AV Pipeline 采用了多种模型小型化的方案,包括剪枝、量化、蒸馏、神经架构搜索等。
AV Pipeline 有 GPU 超分方案和NPU 超分两种方案。GPU 超分方案具有较高的并行效率以及较好的通用性,对于 270P 及以下的视频,可以实现最高 2 倍超分。而 NPU 超分方案则具有更好的超分体验,可以提供 3 倍的超分能力,但是需要专有硬件的支持。这是因为 NPU 提供了直接支持视频格式的接口,可以实现端到端的视频转化,减少了调用开销。
另外,AV Pipeline 针对视频超分提出特有的融合机制,对计算流水进行重排,可以降低超分对内存带宽的需求,提高了推理性能,降低内存读写的功耗。
现在,AV Pipeline 视频超分支持 270P-720P 等多种分辨率,最高可以实现 3 倍效果。根据视频分辨率的不同,AV Pipeline 视频超分插件会灵活采用不同的增强策略,以达到效果和时延功耗的平衡。
声音事件检测:98%识别准确率背后的四大设计亮点
AV Pipeline 另一个重要的插件是声音事件检测,声音事件检测采用主流的深度学习 NN 网络算法模型,重点关注准确率和误闯问题。在设计中,首先,根据声音事件长短不同,AV Pipeline 采用并行计算多个不同卷积,以分析更丰富的特征。
第二,在频谱中很难区分的易混淆声音事件,AV Pipeline 采用注意力机制,对不同声音特征计算贡献度,以区分易混淆的声音类别,并且可用于对误闯声音的抑制。第三,分类后的声音事件,在时间维度(时域上),也使用注意力机制,为贡献度打分。第四,AV Pipeline 设计了融合判决池,得分较高声音事件直接判决,得分较低但不想遗漏的声音事件,采用融合判决池做平滑处理。
AV Pipeline 声音事件检测现在可支持日常使用的 13 种声音,可以用于无障碍功能、健康检测、辅助安全驾驶、安全防盗、事故报警防剐蹭、停车启动安全等更丰富的场景。研发团队针对预置声音类别进行了深度优化、组合验证,当前识别准确率平均在 98% 以上。
最后,AV Pipeline 技术专家透露,AV Pipeline 已经在和视频 App 大厂合作超分商用方案,目前灰度测试阶段。同时,AV Pipeline 也可用于视频编辑软件和直播类应用。接下来,AV Pipeline 会继续完善框架和插件,例如预置视频录制、编辑等业务的 Pipeline,还会新增与人像拍摄美化相关的插件能力。
从 AV Pipeline 在视频领域新的玩法和探索,可以看到华为在持续投入大量核心技术,简化底层开发繁琐流程和难点,用以降低智能化音视频开发的门槛,这是赢得开发者的最好契机。AV Pipeline 的设计与进展,也让业界看到,华为正在探索核心场景和痛点的技术方案,持续加码技术生态实力,未来可期。