旷视CVPR 2019摘得6项世界冠军全方位解密获奖模型-DOIT-数据产业媒体与服务平台

近日，全球计算机视觉顶会 CVPR 2019 在美国长滩拉开帷幕。北京旷视科技有限公司在 CVPR 2019 的3项挑战赛中，最终击败Facebook、通用动力、戴姆勒等国内外一线科技巨头/知名高校，共计斩获6项世界冠军！

本次赛事中，旷视共参加 CVPR 2019 WAD（Workshop on Autonomous Driving）、CVPR 2019 FGVC（Workshop on Fine-Grained Visual Categorization）、CVPR 2019 NTIRE（New Trends in Image Restoration and Enhancement workshop）3项挑战赛，涵盖自动驾驶、新零售、智能手机、3D 等众多领域。

图：旷视斩获 CVPR 2019 挑战赛6项世界冠军

　　CVPR 2019 WAD nuScenes 3D Detection Challenge

CVPR 2019 WAD 是自动驾驶领域的权威比赛，其中nuScenes比赛方向是3D detection，旨在通过模型分析3D激光雷达/相机数据，赋予自动驾驶汽车侦测物体的能力，保障行驶安全。

nuScenes 是今年自动驾驶公司Aptiv发布的一个全新数据集，除了包括每段20秒的1000个场景以及140万幅图像外，该数据集使用了新的3D方法来整合物体检测，并且发布了39万个激光雷达扫描输出。nuScenes不仅需要同时识别10类物体（相比KITTI只需预测单个类别），还加入了速度和属性的预测，而且需要解决严重的类别不均衡问题，因此任务难度大幅提高，因而也更具有实际意义。

对此，旷视设计了一个多尺度、多任务的模型，借助新型检测网络，结合均衡采样等策略，极大提高了模型的检测精度，尤其是在小物体上。由最终结果可知，相较于官方Baseline 45.3%，旷视的模型高出18个点，达到63.3%，比第二名也高出8.8个点，击败一系列顶尖团队，一举夺魁。

图：旷视 nuScenes 3D Detection Challenge冠军奖牌

　　CVPR 2019 WAD Detection/Tracking Domain Adaptation Challenge

Detection Domain Adaptation Challenge 是 CVPR 2019 WAD 的另一项挑战赛，旨在对自动驾驶场景下的环境（二维图像信息）进行感知，今年的比赛主要解决领域自适应问题，即美国道路场景和中国道路场景的相互适应。

具体而言，即利用7万张美国道路场景数据进行训练，对近15万张中国道路场景进行测试，不允许使用任何标注测试数据，只允许使用 ImageNet 进行预训练。图像本身的不一致之外，不同天气、不同道路以及复杂的交通状况都给任务增加了额外挑战，同时也为实际使用提供了可能性。

旷视基于自身积累的检测算法之外，加之复现/使用的最前沿的检测算法（比如 NAS-FPN、Cascade RCNN），进而对 Cascade RCNN 做出一系列改进，使得网络在不同 IOU 阈值下的检测结果都有一定涨幅；同时，为了解决两个数据集之间数据分布不一致的问题，旷视还利用合并训练、AdaBN、Data Distillation 等技术手段，最终在测试集上高出第二名深兰科技1.7个点，同时在所有单类别上取得最高结果。

图：旷视Detection Domain Adaptation Challenge冠军奖牌

此外，在 Tracking Domain Adaptation Challenge 上，旷视使用 Online方法进行多目标跟踪，即在高精度检测结果的基础上，使用 IOU Tracker 进行跟踪；跟踪过程中，改进和调试影响结果的多种因素，最终也在 Tracking 任务上取得第一。

CVPR 2019 FGVC iNaturalist\Herbarium Challenge

CVPR 2019 FGVC 是细粒度识别领域最权威的赛事，iNaturalist Challenge 是此项领域的旗舰比赛，旨在让计算机自动识别物体的精细类别，它不仅要求识别1000多个品种的动、植物，还要识别其在不同发育期的状态；Herbarium Challenge 则要解决开花植物野牡丹科的物种分类问题，所采用的图像集仅包括保存于腊叶标本上的干标本图像。

因此，在这两个比赛中，除了大模型/大分辨率图图像进行训练、测试等常规操作外，旷视还集成最前沿细粒度技术成果（比如 Coarse-to-fine hierarchical classification、iSQRT、Class-Balanced Focal Loss 等），同时创造性提出“后验概率重校准”技术，即通过先验知识对模型输出的后验概率进行校准，极大提高拥有较少训练图像的长尾类别的识别准确率，两项比赛结果均高出第2名近1个点，一举夺魁。

在业务方面，商品识别、菜品识别、缺陷检测、生产线零件识别、车型/车辆识别等均是细粒度图像分析技术的应用，目前已应用于产品研发中。在 iNaturalist 上，旷视击败了通用动力等顶尖团队；在 Herbarium 上，旷视击败了大连理工（上年冠军）、瑞典自然历史博物馆、Facebook。

CVPR 2019 NTIRE Real Image Denosing Challenge

CVPR 2019 NTIRE Real Image Denosing Challenge 则基于最近新提出的智能手机图像降噪数据集（Smartphone Image Denoising Dataset, SIDD），它由很多真实的噪声图像及其相应的 ground truth 组成，且每幅图像都有以原始传感器数据（raw）和标准 RBG（sRGB）格式存储的两个版本。因此，该项比赛分为了两项子赛，分别针对 raw 与 sRGB 图像进行去噪，而旷视研究院参战前者。

事实上，图像降噪一直是旷视研究院“手机摄影超画质”的技术储备项目，自第一版原型诞生以后，就在不断迭代。其中，针对原始传感器数据（raw）的图像降噪更是整个项目的基础技术。但就学术界来看，对图像降噪的关注点一直以 RGB 图像为主，对 raw 图（尤其是手机上）少有关注。人们不了解如何对图像进行前处理、后处理，也不了解在降噪过程中的具体注意事项，往往导致无法发挥数据百分百的力量。基于上述背景，旷视研究院希望借此机会分享在 raw 图像降噪上的心得，同时验证团队实力，进行进一步锻炼。

在这次比赛中，旷视研究院提出针对 raw 图像的基于 U-Net 框架的“拜尔阵列归一化与保列增广”方法。尽管不同输入图像间的数据格式存在差异，但是，为保持网络输入一致性，旷视精心设计了一种数据预处理方法，使得相同的网络工作应用到具有不同拜耳模式的输入上，从而在保证性能的前提下用更大的图像集合训练网络。此外，团队还提出了适用于 raw 图像的数据增广方法。这些优势可以帮助网络获得更好的泛化能力（且没有额外的运行时）。

图：“拜尔阵列归一化与保列增广”方法图示

旷视研究员还发现了主办方提供的第一版数据集里验证集的错误，经分析，这很可能是由于人们对 raw 图像处理的知识相对不足所造成的。由上述可知，学界对 raw 图像展开的图像降噪研究还处于刚刚起步阶段，因此，这个小插曲从某种层面也说明了对 raw 图像降噪研究的重要意义。对于错误的指出，主办方及时进行了更正，并向旷视研究院参赛团队发来了感谢信。

图：旷视Real Image Denosing Challenge 冠军奖牌

依托图像降噪算法，旷视超画质技术在智能降噪的同时，能够更好地保留画面质感，大幅度优化拍摄和影像处理的时间，显著提升用户在夜晚和低光照环境下的拍摄体验。目前，该算法已成功落地于 OPPO Reno 10 倍变焦版。OPPO Reno 10 倍变焦版搭载了基于旷视 MEGVII 超画质技术研发的“超清夜景2.0”功能，能够为用户提供非同凡响的夜拍体验。这也是旷视超画质技术首次运用在大规模量产机型上。

能够在CVPR 2019满载而归，对旷视而言意义重大。旷视首席科学家、旷视研究院院长孙剑表示：“一流的人才往往希望在一个开放的环境中成长。发表论文、参加学术会议，其实是有人对你的工作鼓掌，激励你继续前行。旷视研究院最宝贵的财产是人才。如何吸引、培养、保留人才是一个组织健康和高速发展最关键的。我的工作第一优先级是打造一个好的研发环境，让公司赢，让我们赢，让每个人赢。因为我始终相信两点：中国不缺乏聪明人，中国有世界上最好的发展机会。我们就是要把一帮聪明人聚起来，齐心协力，贯彻‘发展就是硬道理’。”

值得一提的是，旷视能够在CVPR 2019斩获六项冠军的背后源自旷视深度学习框架 Brain++的有力支撑作用。Brain++是一套由旷视研究院自主原创的算法引擎，致力于从云、端、芯三个方面全面赋能物理世界，以实现对世界的感知、控制、优化。Brain++ 不仅助力旷视拿下世界冠军，在未来，还将推动智能汽车、商品识别、手机影像处理、智慧农业等应用领域的进步发展。

旷视CVPR 2019摘得6项世界冠军全方位解密获奖模型

xiesc

相关推荐

近期文章

热门标签