一场3个小时的直播结束后,由阿里安达实验室(达摩院和阿里安全联合实验室)和华中科技大学打造的顶级AI,在3分钟内精准检测最佳商品展示片段,自动进行视频剪辑并发布。不久前,在被誉为计算机视觉领域“奥斯卡”、AI领域规模最大的会议CVPR 2020上,这项行为检测AI技术超越百度、商汤、中兴等公司的同类技术,获得了双料冠军,并比去年微软、三星的参赛成绩高出约17个百分点。
在人工智能顶会拿下双料冠军
当前随着娱乐视频、直播平台的日渐成熟,直播视频数量也出现了井喷的趋势,自动化处理视频的需求日益增长。作为自动化处理视频的核心技术之一,行为检测AI也越来越受到学术界和企业界的共同关注。
阿里安达实验室高级算法工程师张士伟介绍,在CVPR 2020关于行为检测AI的两项赛道任务中,阿里和华科大联手提出的解决方案不仅获得了双料冠军,并以平均均值精度(mAP)42.788%的性能一举打破众多顶尖科技公司、科研院校去年无法突破“40%”的瓶颈,在AI视觉领域带来新的可能。
CVPR两个赛道的数据集分别有2万个视频和5万个视频,而且后者采用的是更贴近真实生活的视频数据。这次两个赛道任务目标是,给定一段无剪切的视频,参赛AI必须检测出目标行为发生的时间区间并正确预测该行为对应的类别。以一段跳水比赛视频为例,视频中有若干参赛选手的跳水动作,每个跳水动作约4秒,AI须准确定位某位或者多位参赛选手的跳水动作。
张士伟认为,CVPR的比赛任务还面临四大挑战:第一,目标行为时常分布广,从0.5秒到400秒不等,以赛道中一个200秒的测试视频为例,1秒采集15帧图像,AI必须在3000帧图像中精确定位;第二,视频背景复杂,通常具有很多不规则的非目标行为嵌入在视频中,比如一段集会场景的视频中有许多参会者,AI必须从复杂的背景中精准定位演讲者;第三,类间差大,行为的视觉效果会因人而异,比如专业舞者和业余舞者在跳同一段舞蹈,他们的动作必然有差异,AI要能识别这是同一段舞蹈。“此外,AI检测人体动作还面临人体之间的互相遮挡、视频分辨率不够、光照、视角等变化多样的其他干扰。”张士伟说。
虽然面临上述难题,两个赛道的数据属性也不尽相同,阿里安达实验室和华中科技大学还是创造性地提出了两项AI解决方案,出色地实现了比赛任务目标。
图片说明:阿里安达实验室和华科大在CVPR两个赛道的获奖证书
技术能力得益于现实场景磨炼
技术的进步往往得益于复杂现实场景的磨炼和沉淀。行为检测AI经过长时间打磨,早在阿里安达实验室的多媒体AI和安全审核等系统中布局,成为安全AI的核心组件之一。阿里安达实验室负责人薛晖介绍,优酷、淘宝直播视频等早已受益于这项顶尖技术。
行为检测AI不仅可以准确定位、分析视频中的违规行为,甚至还能预测一些行为的趋势。同时,它还可以自动检测淘宝直播中某个商品的最佳动作展示片段,自动剪辑出精华视频用于橱窗展示。
“把行为检测AI应用在实际业务场景,并在业务的打磨和考验中不断成长,,这也是阿里安达实验室打造的这项AI技术能在CVPR 2020上取得双料冠军的原因。”薛晖说。
图片说明:左为时长3小时的直播视频,右为行为检测AI识别出的某单件服装展示视频
打造数字基建“安全样板间”
今年3月,阿里发布数字基建新一代安全架构。从实战出发进行安全基建,让安全能力和业务数字化建设实现同步,是新一代安全架构的核心理念。
安全技术以往大多只应用于安全风控领域。阿里安全在20多年间的发展历程中,始终坚持立足于不断创新的业务场景打造安全技术。在保障业务安全的前提下,也在为一些商业难题提供新的解决方案,为业界打造安全基建的样板。
张士伟介绍,行为检测AI在体育、直播、影视传媒和安防领域有广阔的应用前景,比如精彩动作检测、智能集锦生成、介绍商品行为,以及通用动作检测识别、多模态搜索、异常动作检测等。在护航数字基建的同时,也为多个领域的创新和提效带来更多智能化助力。