腾讯优图非对称卡通脸检测算法ACFD,获IJCAI 2020挑战赛冠军

近日,在人工智能国际会议 (IJCAI) 举办的2020 iCartoonFace挑战赛中,腾讯优图实验室基于自研的“千寻”检测平台,首次提出面向动漫场景的卡通脸检测算法ACFD,并从国内顶尖学术机构和商业公司中脱颖而出,取得第一名的成绩。目前,论文已在arXiv公开。

image.png

优图提出的ACFD算法在IJCAI2020举办的iCartoonFace挑战赛中排名第一

卡通脸检测广泛使用在内容审核和动漫视频分析等业务场景中,现有的DSFD等通用人脸检测器难以检测到一些特定场景下的人脸,因此,优图首次提出一种面向动漫场景的非对称卡通脸检测器ACFD。ACFD是一种基于深度学习的目标检测技术,属于一阶段带有锚点框的检测方法,输入一张卡通图片,ACFD便可以输出卡通图片中卡通脸的位置(x,y,w,h)以及对应的置信度。

image.png

本次,优图提出的ACFD检测算法推理速度仅为50ms且无需任何预训练模型能够检测出动漫视频作品中的较为抽象的卡通脸:如机器人脸,类动物脸,玩具脸,简笔画脸,表情脸等。

image.png

不同于含有端正五官的正常人脸,卡通脸种类丰富,人物抽象。最为常见的有类动物脸,机器人脸,还有一些表情脸。针对这些特点,优图提出非对称卡通人脸检测算法ACFD,复用了一些经典的人脸检测器的框架,并作出创新性的改进。

ACFD包括四个部分:用来对卡通图提取6个特征图的主干网络VoVNetV3,对高低特征融合的非对称的双向特征金字塔结构ABi-FPN,动态锚点框匹配DAM基于间隔的损失函数MC loss

image.png

VoVNet是一种计算高效的骨干网络,其OSA模块可以输出灵活的特征表达。VoVNetV2通过添加残差连接方式解决了VoVNet训练的局限性,同时引入一种高效的注意力机制。

为进一步提升特征的灵活性,优图提出了一种更有效的骨干网络VoVNetV3。VoVNetV3在不使用预训练模型情况下,在较为抽象的动漫场景中表现优异,相比于ResNet50,VoVNetV3能够将检测指标AP (Average Precision) 从0.9018提升至0.9074。

在提取多尺度特征时,目前大部分人脸检测器采用ResNet或VGG。然而,它们仅仅可以处理方形感受野的,这可能会影响尺度差异较大的人脸检测。而卡通人脸中大约有10%的比例大于2.0或小于0.5.

优图提出的ABi-FPN模块同时进行特征融合、语义信息增强以及感受野精细处理,它可以使特征感受野更灵活。

为了在检测任务中更好的划分并分类正负样本,也就是卡通脸和背景两个类别,ACFD将传统的锚点框匹配过程改进为动态的锚点框匹配(DAM),在训练的每次前向传播后,对于困难的卡通脸用一些负样本进行锚点框的补偿。这种动态的锚点框匹配能将baseline的AP指标由0.8765提升至0.8890。

image.png

动态的锚点框匹配策略DAM

在训练的过程中使用的多任务损失函数,包括回归loss和分类loss。损失函数对补偿的锚点框计算出的loss进行了加权,并且在分类loss中引入了margin。优图提出的基于margin损失函数MC loss最终将AP提升了0.3。

image.png

卡通脸检测是许多业务的基础和关键环节,广泛使用在内容审核和动漫视频分析两个典型的场景中:

互联网上源源不断产生海量内容和数据,AI算法审核可以提升内容审核效率,降低审核成本。比如AI可以在电商平台、新闻、视频网站、短视频应用上检测识别知名IP形象的使用是否侵权。

动漫产业蓬勃发展,每年会产生大量的卡通视频。使用AI帮助检测卡通脸,理解卡通人物的人脸信息来进行动漫视频的分析。

作为腾讯旗下顶级AI实验室之一,优图一直聚焦视觉AI研究与落地,并积极拓展卡通脸等相关智能识别能力,为新闻平台、视频网站、短视频应用等业务提供技术支持和解决方案,让AI视觉识别提升应用效率。