近日,全球计算机视觉顶会 CVPR 2019 在美国长滩拉开帷幕。北京旷视科技有限公司在 CVPR 2019 的3项挑战赛中,最终击败Facebook、通用动力、戴姆勒等国内外一线科技巨头/知名高校,共计斩获6项世界冠军!
本次赛事中,旷视共参加 CVPR 2019 WAD(Workshop on Autonomous Driving)、CVPR 2019 FGVC(Workshop on Fine-Grained Visual Categorization)、CVPR 2019 NTIRE(New Trends in Image Restoration and Enhancement workshop)3项挑战赛,涵盖自动驾驶、新零售、智能手机、3D 等众多领域。
图:旷视斩获 CVPR 2019 挑战赛6项世界冠军
CVPR 2019 WAD nuScenes 3D Detection Challenge
CVPR 2019 WAD 是自动驾驶领域的权威比赛,其中nuScenes比赛方向是3D detection,旨在通过模型分析3D激光雷达/相机数据,赋予自动驾驶汽车侦测物体的能力,保障行驶安全。
nuScenes 是今年自动驾驶公司Aptiv发布的一个全新数据集,除了包括每段20秒的1000个场景以及140万幅图像外,该数据集使用了新的3D方法来整合物体检测,并且发布了39万个激光雷达扫描输出。nuScenes不仅需要同时识别10类物体(相比KITTI只需预测单个类别),还加入了速度和属性的预测,而且需要解决严重的类别不均衡问题,因此任务难度大幅提高,因而也更具有实际意义。
对此,旷视设计了一个多尺度、多任务的模型,借助新型检测网络,结合均衡采样等策略,极大提高了模型的检测精度,尤其是在小物体上。由最终结果可知,相较于官方Baseline 45.3,旷视的模型高出18个点,达到63.3,比第二名也高出8.8个点,击败一系列顶尖团队,一举夺魁。
图:旷视 nuScenes 3D Detection Challenge冠军奖牌
CVPR 2019 WAD Detection/Tracking Domain Adaptation Challenge
Detection Domain Adaptation Challenge 是 CVPR 2019 WAD 的另一项挑战赛,旨在对自动驾驶场景下的环境(二维图像信息)进行感知,今年的比赛主要解决领域自适应问题,即美国道路场景和中国道路场景的相互适应。
具体而言,即利用7万张美国道路场景数据进行训练,对近15万张中国道路场景进行测试,不允许使用任何标注测试数据,只允许使用 ImageNet 进行预训练。图像本身的不一致之外,不同天气、不同道路以及复杂的交通状况都给任务增加了额外挑战,同时也为实际使用提供了可能性。
旷视基于自身积累的检测算法之外,加之复现/使用的最前沿的检测算法(比如 NAS-FPN、Cascade RCNN),进而对 Cascade RCNN 做出一系列改进,使得网络在不同 IOU 阈值下的检测结果都有一定涨幅;同时,为了解决两个数据集之间数据分布不一致的问题,旷视还利用合并训练、AdaBN、Data Distillation 等技术手段,最终在测试集上高出第二名深兰科技1.7个点,同时在所有单类别上取得最高结果。
图:旷视Detection Domain Adaptation Challenge冠军奖牌
此外,在 Tracking Domain Adaptation Challenge 上,旷视使用 Online方法进行多目标跟踪,即在高精度检测结果的基础上,使用 IOU Tracker 进行跟踪;跟踪过程中,改进和调试影响结果的多种因素,最终也在 Tracking 任务上取得第一。
CVPR 2019 FGVC iNaturalist\Herbarium Challenge
CVPR 2019 FGVC 是细粒度识别领域最权威的赛事,iNaturalist Challenge 是此项领域的旗舰比赛,旨在让计算机自动识别物体的精细类别,它不仅要求识别1000多个品种的动、植物,还要识别其在不同发育期的状态;Herbarium Challenge 则要解决开花植物野牡丹科的物种分类问题,所采用的图像集仅包括保存于腊叶标本上的干标本图像。
因此,在这两个比赛中,除了大模型/大分辨率图图像进行训练、测试等常规操作外,旷视还集成最前沿细粒度技术成果(比如 Coarse-to-fine hierarchical classification、iSQRT、Class-Balanced Focal Loss 等),同时创造性提出“后验概率重校准”技术,即通过先验知识对模型输出的后验概率进行校准,极大提高拥有较少训练图像的长尾类别的识别准确率,两项比赛结果均高出第2名近1个点,一举夺魁。
在业务方面,商品识别、菜品识别、缺陷检测、生产线零件识别、车型/车辆识别等均是细粒度图像分析技术的应用,目前已应用于产品研发中。在 iNaturalist 上,旷视击败了通用动力等顶尖团队;在 Herbarium 上,旷视击败了大连理工(上年冠军)、瑞典自然历史博物馆、Facebook。
CVPR 2019 NTIRE Real Image Denosing Challenge
CVPR 2019 NTIRE Real Image Denosing Challenge 则基于最近新提出的智能手机图像降噪数据集(Smartphone Image Denoising Dataset, SIDD),它由很多真实的噪声图像及其相应的 ground truth 组成,且每幅图像都有以原始传感器数据(raw)和标准 RBG(sRGB)格式存储的两个版本。因此,该项比赛分为了两项子赛,分别针对 raw 与 sRGB 图像进行去噪,而旷视研究院参战前者。
事实上,图像降噪一直是旷视研究院“手机摄影超画质”的技术储备项目,自第一版原型诞生以后,就在不断迭代。其中,针对原始传感器数据(raw)的图像降噪更是整个项目的基础技术。但就学术界来看,对图像降噪的关注点一直以 RGB 图像为主,对 raw 图(尤其是手机上)少有关注。人们不了解如何对图像进行前处理、后处理,也不了解在降噪过程中的具体注意事项,往往导致无法发挥数据百分百的力量。基于上述背景,旷视研究院希望借此机会分享在 raw 图像降噪上的心得,同时验证团队实力,进行进一步锻炼。
在这次比赛中,旷视研究院提出针对 raw 图像的基于 U-Net 框架的“拜尔阵列归一化与保列增广”方法。尽管不同输入图像间的数据格式存在差异,但是,为保持网络输入一致性,旷视精心设计了一种数据预处理方法,使得相同的网络工作应用到具有不同拜耳模式的输入上,从而在保证性能的前提下用更大的图像集合训练网络。此外,团队还提出了适用于 raw 图像的数据增广方法。这些优势可以帮助网络获得更好的泛化能力(且没有额外的运行时)。
图:“拜尔阵列归一化与保列增广”方法图示
旷视研究员还发现了主办方提供的第一版数据集里验证集的错误,经分析,这很可能是由于人们对 raw 图像处理的知识相对不足所造成的。由上述可知,学界对 raw 图像展开的图像降噪研究还处于刚刚起步阶段,因此,这个小插曲从某种层面也说明了对 raw 图像降噪研究的重要意义。对于错误的指出,主办方及时进行了更正,并向旷视研究院参赛团队发来了感谢信。
图:旷视Real Image Denosing Challenge 冠军奖牌
依托图像降噪算法,旷视超画质技术在智能降噪的同时,能够更好地保留画面质感,大幅度优化拍摄和影像处理的时间,显著提升用户在夜晚和低光照环境下的拍摄体验。目前,该算法已成功落地于 OPPO Reno 10 倍变焦版。OPPO Reno 10 倍变焦版搭载了基于旷视 MEGVII 超画质技术研发的“超清夜景2.0”功能,能够为用户提供非同凡响的夜拍体验。这也是旷视超画质技术首次运用在大规模量产机型上。
能够在CVPR 2019满载而归,对旷视而言意义重大。旷视首席科学家、旷视研究院院长孙剑表示:“一流的人才往往希望在一个开放的环境中成长。发表论文、参加学术会议,其实是有人对你的工作鼓掌,激励你继续前行。旷视研究院最宝贵的财产是人才。如何吸引、培养、保留人才是一个组织健康和高速发展最关键的。我的工作第一优先级是打造一个好的研发环境,让公司赢,让我们赢,让每个人赢。因为我始终相信两点:中国不缺乏聪明人,中国有世界上最好的发展机会。我们就是要把一帮聪明人聚起来,齐心协力,贯彻‘发展就是硬道理’。”
值得一提的是,旷视能够在CVPR 2019斩获六项冠军的背后源自旷视深度学习框架 Brain++的有力支撑作用。Brain++是一套由旷视研究院自主原创的算法引擎,致力于从云、端、芯三个方面全面赋能物理世界,以实现对世界的感知、控制、优化。Brain++ 不仅助力旷视拿下世界冠军,在未来,还将推动智能汽车、商品识别、手机影像处理、智慧农业等应用领域的进步发展。