商汤科技联合团队获CVPR最佳论文，推出首个“感知决策一体化”自动驾驶通用大模型-DOIT-数据产业媒体与服务平台

一篇最佳论文，一篇最佳论文候选，共计54篇论文被接收，商汤科技及联合实验室交出CVPR 2023闪亮的成绩单。

6月18日-22日，全球计算机视觉盛会CVPR 2023（Computer Vision and Pattern Recognition）在加拿大温哥华举行。本届CVPR论文投稿总量达9155篇，最终共有2369篇论文被接收。最佳论文候选为12篇，接收率仅为0.13%。

商汤两篇论文登上最佳论文候选名单（Award Candidate），其中自动驾驶研究论文《Planning-oriented Autonomous Driving》（以路径规划为导向的自动驾驶）斩获本届CVPR最佳论文奖（Best Paper Award）。

这是CVPR历史上第一篇以自动驾驶为主题的最佳论文，该论文首次提出感知决策一体化的自动驾驶通用大模型UniAD，开创了以全局任务为目标的自动驾驶大模型架构先河, 标志着自动驾驶技术的重要突破, 为自动驾驶技术与产业的发展提出了新的方向。

CVPR 2023最佳论文，自动驾驶研究获重要突破

自动驾驶技术高度复杂，需要融合多学科领域的知识和技能，包括传感器技术、机器学习、路径规划等方面。自动驾驶还需要适应不同的道路规则和交通文化，与车辆和行人进行良好交互，以实现高度可靠和安全的自动驾驶系统。大部分自动驾驶相关的工作都聚焦在具体的某个模块，缺少能够实现端到端联合优化的通用网络模型。

论文提出的自动驾驶通用算法框架——Unified Autonomous Driving（UniAD）首次将检测、跟踪、建图、轨迹预测，占据栅格预测以及规划整合到一个基于Transformer 的端到端网络框架下，更高效契合了“多任务”和“高性能”的特点，取得自动驾驶技术研究重要突破。

自动驾驶UniAD框架对比（a）模块化（b）多任务模块（c）端到端自动驾驶模块

商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示，UniAD是业内首个感知决策一体化的端到端自动驾驶解决方案，并且整体系统和性能取得大幅提升，代表了未来自动驾驶技术的发展趋势。

这种端到端的优化在多项关键技术指标上超越了SOTA。比如，多目标跟踪准确率超越SOTA 20%，车道线预测准确率提升30%，预测运动位移误差降低38%，规划误差降低28%。

UniAD 是一项极具创新性的自动驾驶技术，且因其具有很大的潜力和应用价值，目前在学术界和工业界都引起了广泛兴趣和关注。

随着通用人工智能（AGI）引领的二次革命的到来，以此为基础，期待在未来能推动实现更高阶的自动驾驶人工智能。

CVPR 2023最佳论文候选，加速推动AIGC时代真实感3D内容生成

面向真实 3D 物体的感知、理解、重建与生成是计算机视觉领域一直倍受关注的问题。由于缺乏大规模的真实扫描三维数据库，最近在三维物体建模方面的进展大多依赖于合成数据集。

为促进现实世界中3D感知、重建和生成的发展，论文《OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation》提出了OmniObject3D，一个具有大规模高质量真实扫描3D物体的大型词汇3D物体数据集，覆盖近200个类别、约6000个三维物体数据，包括高精表面网格、点云、多视角渲染图像和实景采集的视频，借助专业扫描设备保证了物体数据的精细形状和真实纹理。

OmniObject3D是目前学界最大的真实世界三维扫描模型数据集，为未来三维视觉研究提供了广阔空间。

利用该数据集，研究人员精心探讨了点云识别、神经渲染、表面重建、三维生成等多种学术任务的鲁棒性和泛化性，验证其从感知、重建、到生成领域的开放应用前景，有望在AIGC 时代推动真实感3D生成方面发挥至关重要的作用。持续引领前沿创新，是商汤在以大装置SenseCore和大模型为核心的AI基础设施领域长期投入，并坚持产学研协同创新的成果。

王晓刚教授认为，在大算力、大数据的支撑下，大模型将以更强大的通用能力引发人工智能领域的巨大变革，同时也会拓展我们的研究视野，激发新一轮研究范式革新。

自今年4月初“商汤日日新SenseNova”大模型体系公布以来，商汤的大模型已在气象预报、遥感解译、开放环境中的决策问题等领域取得了诸多突破性成就。未来，商汤将继续与产学研各界共同拥抱和探索大模型带来的范式革新，为AI的前沿探索开拓新方向和新路径。

商汤科技联合团队获CVPR最佳论文，推出首个“感知决策一体化”自动驾驶通用大模型

xiesc

相关推荐

近期文章

热门标签