6月19日-23日,全球人工智能计算机视觉领域顶级国际会议CVPR 2022(Computer Vision and Pattern Recognition,即国际计算机视觉与模式识别)在美国新奥尔良举行,并同步进行线上会议。商汤科技及联合实验室共71篇论文入选本届CVPR,再创新高,其中有接近四分之一被录用为Oral(口头报告),涵盖三维视觉、自动驾驶等多个备受关注的前沿研究领域和方向,继续巩固在全球计算机视觉研究领域的领跑势头。
自成立以来,商汤及联合实验室已在各学术顶会发表论文超过700篇,在各项竞赛中赢得超过70个世界冠军。与此同时,一直以来商汤没有把论文数量作为衡量公司技术发展的标准。商汤科技联合创始人、研究院院长王晓刚博士表示:“我们希望通过为科研工作者提供高效科研的良好环境,鼓励和引导年轻的研究者从解决业界实际问题角度出发,做高水平、高质量的研究。”
在本届CVPR上,商汤科技还参与了多项学术竞赛,同样取得了令人瞩目的成绩。例如,商汤科技与中科院自动化所、上海人工智能实验室联合参加Embodied AI 2022 (2022具身智能挑战赛),在RxR-Habitat赛道斩获冠军。作为全球embodied AI研究领域权威性竞赛,比赛要求用自然语言控制解决室内机器人的导航问题。商汤的方法达到90%以上效果提升,导航准确率从24.08%提升至45.82%,导航保真度从37.39%提升到55.43%。同时,在为推动基于深度学习的视觉编码技术而举办的CLIC(Challenge on Learned Image Compression)竞赛中,商汤科技团队提供的方案成功获得图像编码赛道冠军,不仅在全部三个测试码点上取得了最优主观评测分数,还拥有所有深度学习方案中最快的解码速度。
推动技术赋能产业,以创新引领行业突破
商汤科技一直以来鼓励研究团队,关注产业需求和痛点,将研究工作与实际业务场景相结合。近年来,依托SenseCore商汤AI大装置等AI基础设施的构建,商汤在前沿研究领域拥有更强大的支撑,进一步推动了与产业协同的深化,以AI技术创新引领行业发展。
例如在《Bailando: 3D Dance Generation via Actor-Critic GPT with Choreographic Memory》这篇论文中,研究人员提出了一种新的音乐到舞蹈框架Bailando,它可以驱动3D角色跟随音乐做出舞蹈动作,而且不仅能保证动作的标准与美感,还能在时间上保持与不同音乐节奏的一致性。当前,在AI、云计算等技术能力提升的背景下,数字人的应用范围日渐丰富,在社交、游戏、直播、虚拟偶像等领域逐渐融入我们的生活。这一研究无疑为未来数字人产业进行更加智能、个性的人物塑造,满足多样化需求提供了潜在方向。
近年来,随着自动驾驶和激光雷达技术的发展,基于点云的目标跟踪也获得了更多的关注。针对点云数据特有的挑战和现有算法的缺陷,在论文《PTTR: Relational 3D Point Cloud Object Tracking with Transformer》中,商汤研究团队提出了一个新颖的点云跟踪框架PTTR,在多个数据集上显著提升了目标跟踪的准确性,为自动驾驶的安全运行打下了基础。
商汤科技还联合北京航空航天大学刘祥龙教授团队,共同举办了面向复杂场景的鲁棒机器学习大赛——Robust Models towards Open-world Classification。比赛以推动安全可靠AI模型研究为目标,鼓励打造更安全、更可靠的AI,支持人工智能技术更可持续地发展。大赛共吸引286只队伍、416位参赛者参加。6月19日,大赛在CVPR2022 Art of Robustness Workshop上正式公布获奖名单。
加强基础设施与生态建设,助力成果生成
商汤科技在学术研究及技术创新方面取得的突出成绩,离不开领先的软硬件基础设施整合的强大算力基础和领先的算法能力,以及商汤在学术生态和开源生态建设方面的长期积累。商汤通过建设并不断完善以SenseCore商汤AI大装置为核心的基础设施,为技术研发和落地提供重要基础支撑。研究人员能够高效地进行科研,快速实验并验证新的想法,加速创新与迭代,促进高水平论文的产生,同时解决产业落地中的问题。
商汤十分重视学术生态建设。2017年以来,商汤科技陆续与上海交通大学、南洋理工大学、浙江大学分别成立联合研究院或实验室,与清华大学建立“感知计算”产学研深度融合专项计划,并推动成立全球人工智能高校学术联盟,通过与学术界的紧密联系,促进各种学术成果的产生以及国际间的学术交流与合作。今年6月11日,商汤科技联合全球高校人工智能学术联盟成功举办“研无止境:商汤论文分享会”活动,汇聚来自商汤科技以及香港中文大学、浙江大学、南洋理工大学、北京大学等高校的研究学者嘉宾,在线解读在3D视觉、姿态估计、底层视觉、表征学习、场景理解等领域的CVPR 2022 Oral 论文,分享宝贵学术经验。
此外,商汤持续巩固开源生态建设。基于视觉算法的开源项目OpenMMLab目前在GitHub已经拥有超过5万颗星,并成功向研究者和业界开源上千个模型。基于决策智能的OpenDILab去年在WAIC大会发布并向学术和工业界开源。在大模型方向,商汤与上海人工智能实验室及高校联合发布了通用视觉技术体系书生INTERN,并开源了OpenGVLab,助力通用人工智能基础研究和生态构建。OpenMMLab还在CVPR期间举办了主题为《OpenMMLab:计算机视觉研究和生产基础平台》的研讨会,邀请学术大咖参与分享讨论,共建开源生态。
随着基础设施的构建完善,学术与开源生态的培育,人工智能技术研究的基础将能够更加的稳固、更加宽广。商汤将以此为支撑持续引领人工智能技术创新,加强AI产业落地的深化,加快规模化应用,推动人工智能技术与产业发展不断取得突破。