腾讯优图非对称卡通脸检测算法ACFD，获IJCAI 2020挑战赛冠军-DOIT-数据产业媒体与服务平台

近日，在人工智能国际会议 (IJCAI) 举办的2020 iCartoonFace挑战赛中，腾讯优图实验室基于自研的“千寻”检测平台，首次提出面向动漫场景的卡通脸检测算法ACFD，并从国内顶尖学术机构和商业公司中脱颖而出，取得第一名的成绩。目前，论文已在arXiv公开。

优图提出的ACFD算法在IJCAI2020举办的iCartoonFace挑战赛中排名第一

卡通脸检测广泛使用在内容审核和动漫视频分析等业务场景中，现有的DSFD等通用人脸检测器难以检测到一些特定场景下的人脸，因此，优图首次提出一种面向动漫场景的非对称卡通脸检测器ACFD。ACFD是一种基于深度学习的目标检测技术，属于一阶段带有锚点框的检测方法，输入一张卡通图片，ACFD便可以输出卡通图片中卡通脸的位置（x,y,w,h）以及对应的置信度。

本次，优图提出的ACFD检测算法推理速度仅为50ms且无需任何预训练模型，能够检测出动漫视频作品中的较为抽象的卡通脸：如机器人脸，类动物脸，玩具脸，简笔画脸，表情脸等。

不同于含有端正五官的正常人脸，卡通脸种类丰富，人物抽象。最为常见的有类动物脸，机器人脸，还有一些表情脸。针对这些特点，优图提出非对称卡通人脸检测算法ACFD，复用了一些经典的人脸检测器的框架，并作出创新性的改进。

ACFD包括四个部分：用来对卡通图提取6个特征图的主干网络VoVNetV3，对高低特征融合的非对称的双向特征金字塔结构ABi-FPN，动态锚点框匹配DAM和基于间隔的损失函数MC loss。

VoVNet是一种计算高效的骨干网络，其OSA模块可以输出灵活的特征表达。VoVNetV2通过添加残差连接方式解决了VoVNet训练的局限性，同时引入一种高效的注意力机制。

为进一步提升特征的灵活性，优图提出了一种更有效的骨干网络VoVNetV3。VoVNetV3在不使用预训练模型情况下，在较为抽象的动漫场景中表现优异，相比于ResNet50，VoVNetV3能够将检测指标AP (Average Precision) 从0.9018提升至0.9074。

在提取多尺度特征时，目前大部分人脸检测器采用ResNet或VGG。然而，它们仅仅可以处理方形感受野的，这可能会影响尺度差异较大的人脸检测。而卡通人脸中大约有10%的比例大于2.0或小于0.5.

优图提出的ABi-FPN模块同时进行特征融合、语义信息增强以及感受野精细处理，它可以使特征感受野更灵活。

为了在检测任务中更好的划分并分类正负样本，也就是卡通脸和背景两个类别，ACFD将传统的锚点框匹配过程改进为动态的锚点框匹配(DAM)，在训练的每次前向传播后，对于困难的卡通脸用一些负样本进行锚点框的补偿。这种动态的锚点框匹配能将baseline的AP指标由0.8765提升至0.8890。

动态的锚点框匹配策略DAM

在训练的过程中使用的多任务损失函数，包括回归loss和分类loss。损失函数对补偿的锚点框计算出的loss进行了加权，并且在分类loss中引入了margin。优图提出的基于margin损失函数MC loss最终将AP提升了0.3。

卡通脸检测是许多业务的基础和关键环节，广泛使用在内容审核和动漫视频分析两个典型的场景中：

互联网上源源不断产生海量内容和数据，AI算法审核可以提升内容审核效率，降低审核成本。比如AI可以在电商平台、新闻、视频网站、短视频应用上检测识别知名IP形象的使用是否侵权。

动漫产业蓬勃发展，每年会产生大量的卡通视频。使用AI帮助检测卡通脸，理解卡通人物的人脸信息来进行动漫视频的分析。

作为腾讯旗下顶级AI实验室之一，优图一直聚焦视觉AI研究与落地，并积极拓展卡通脸等相关智能识别能力，为新闻平台、视频网站、短视频应用等业务提供技术支持和解决方案，让AI视觉识别提升应用效率。

腾讯优图非对称卡通脸检测算法ACFD，获IJCAI 2020挑战赛冠军

zhangnn

相关推荐

近期文章

热门标签