5G开启倒计时 AI内容服务已进入新赛道

2019年被誉为中国的“5G元年”,它将为视频行业带来巨大的改变。在5G技术的支撑下,传输速度较于4G将快百倍,高速度、泛在网、低功耗、低时延的5G优势将革新当前的视频产业。第七届中国网络视听大会上,围绕这一话题,金山云高级技术总监韩博发表主题演讲,重点阐述5G背景下,AI内容服务产业随着视频生产、服务、消费方式的升级,在技术演进过程中的突破性进展。

金山云高级技术总监韩博在大会发表主题演讲

AI内容服务随5G同行

5G网络是信息基础设施又一次全面升级,能为跨领域、全方位、多层次的产业深度融合提供坚实支撑。韩博表示,5G将促进数字内容制作、分发、呈现的全产业链升级。AI内容服务作为贯穿视频内容生产全过程的重要“参与者”,已做好了迎接5G时代到来的准备。

以金山云金睛为例,它基于金山云强大的云计算基础资源能力和海量数据积累,专注于图像识别、语音识别、多模态视频分析、文本识别、人脸识别、行人车辆识别等人工智能领域的研究,提供跨行业、多场景的AI解决方案。在AI内容服务方面,已覆盖内容生产、内容风控、内容分发全环节。

“我们的生活不仅是一系列的静态快照,而是随着时间变化在现实世界动态发生事件,视频内容更是如此。内容趋势的变迁,同时也会推动人工智能技术的演进。基于此,金山云金睛在单模态识别的基础上,升级为多模态融合理解,以应对5G时代低延时、高速率、庞大体量的AI内容服务需求。”韩博介绍道。

多模态融合理解带来认知升级

多模态,简单来说是相对于单一的视觉、语音、OCR识别等,将多个模态的信息结合起来,也就是视频中的音视图文内容进行综合判定、理解。相比传统单一的交互模式,多模态融合技术。表达效率和表达的信息完整度更高,是智能交互的发展趋势。

韩博介绍,多模态融合理解技术可以对视频内容进行精准的场景识别、对象跟踪、行为理解、图文联想等。比如基于单模态的图像识别很难判断出直播过程中,主播是在抽烟,还是在吃棒棒糖。但是基于多模态的视频理解,我们可以通过将连贯主播的行为动作进行分析,判断是否有点烟行为,是否有吐烟行为,从而准确的判断主播是否在抽烟。

除此之外,在视频内容的生产过程中,多模态融合理解技术优势明显。例如自动进行语音转写,并且放到指定位置;实现智能BGM功能,根据视频内容自动推荐背景音乐;支持视频特效功能,对应视频场景或者动作,给出视频特效等。

相对于 AI 目前所展示出在图像和语音领域的单一感知能力,视频理解更加复杂,也更加困难,这体现在理解视频是二者的叠加,实现多模态融合理解的背后,需要技术的突破。韩博在现场重点介绍了金山云金睛在多模态理解技术上的突破——AI算法团队通过训练超千万个高质量的短视频,得到的具有很强的泛化能力的内容理解模型和金山云金睛专利时序算法。

多模态融合理解必须全面捕捉视频内容中的时序信息。金山云内容理解模型通过三维时空卷积(3D conv)和三维时空卷积长短时注意力循环神经网络(LSTM and Attention)来精细捕捉视频单帧图片的局部与整体时空信息。受人脑注意力机制的启发,引入“时空注意力机制”,使得模型可以聚焦关键帧、关键位置的信息,降低无关帧对模型性能的影响。整个模型不需要任何人工干预,输入原始视频,就可以得到最终的预测结果,整个模型精度高、速度快。

金山云金睛内容识别已经全面运用多模态视频识别技术进行视频内容处理,可以更加精准的理解视频内容,帮助内容平台快速、精准审核视频内容,以及对视频进行精准的标签分类和特征提取,用于内容推荐和分发。为平台优质内容产出、打通作者和用户间壁垒,实现平台差异化布局夯实了技术基础。