数据驱动未来出行:云测数据发布智能驾驶数据解决方案2.0

自2016年以来,智能驾驶技术快速发展,从最初依赖激光雷达等传感器,到2020年,辅助巡航驾驶能力增强,智能驾驶相关企业逐渐侧重提高汽车对周围环境的感知能力还有车内智能驾舱人机交互等来提供更安全便捷地智能驾驶服务。

彼时针对AI数据服务需求,云测数据在2021年世界人工智能大会上正式发布了新一代智能驾驶数据解决方案,旨在向企业提供感知数据能力的同时,降低AI模型训练成本,提高数据标注效率,加速智能驾驶应用快速落地。

其基于用户对数据的不同需求划分了三个研发迭代阶段——算法预研期,针对何种具体场景解决方案进行相关算法探索,需要开源数据集和商业成品数据集帮助企业快速完成产品验证。

第二阶段是算法研发期,企业明确处理的场景和对传感器算力的需求,开始基于定制化场景和对应传感器进行相关数据采集、清洗和标注服务。

第三阶段是算法持续优化期。当企业拥有相对完整的数据模型之后,数据需求就偏向支持持续集成和迭代算法所需要的数据,类似DevOps,是进行数据的持续流转,实现AI工程化。

如今, 智能驾驶汽车功能越来越多,处于规模化量产和技术更新迭代的开端,比如从过去依赖于高精地图实现定位和导航,到现在智能驾驶汽车自身的感知能力越来越强,能通过高质量数据实现算法迭代,让汽车更具灵活性,适应不同的道路和环境。而大模型时代的到来也为用户提供了更好的人机交互体验。

那么现在的AI数据服务需要具备哪些能力?

2023年8月的ICVS中国自动驾驶博览会期间,云测数据正式发布云测数据发布智能驾驶数据解决方案2.0,并分享了升级版智能驾驶数据解决方案的主要亮点。

云测数据总经理贾宇航总在采访中提到AI数据服务需要具备三项能力:

一、数据维度的支持能力。自动驾驶正从最早依赖视觉到现在的多传感器融合,从3D点云+图像的融合标注到现在增加4D标注。4D标注不只是看到的静态三维空间,还叠加了时间维度,了解周边物体在一段时间内的移动和变化,能帮助车辆更好地应对复杂的驾驶情况,更快地识别道路的不同交通状况并作出相应反应,但对数据处理,以及数据标注方法都带来很大的挑战。

云测数据以集成数据底座为核心,全面升级数据标注及数据管理工具链和不同模型的预标注能力,包括图像整帧、自选物体、区域、点云批次识别和文本识别等,重新定义了基于预标注的人工标注效能,如能效看板、综合看版等。并针对特定算法类型的数据持续优化迭代,涵盖点云4D叠帧、语义分割联合标注和智能ID轨迹预测。数据集也更加丰富,纳入了更多场景数据,标注方法也从原来以点线面体为主进化到融合4D标注规则和标注工艺。在服务方面,数据标注精度、反馈给企业的时效性有了大幅提升。

二、工具的可集成性。规模化量产与AI工程化需要基于道路场景的数据积累,让算法更加智能。云测数据做的是将工具链系统与企业数据底座相集成的能力,使数据更高效无缝流转的能力作为重点,云测数据支持通过标准API接口与其他业务系统集成,让更多企业将自身的生产环境或训练数据流转到标注平台上进行作业,处理后的数据能直接推送到训练服务器上或是生成评测集/仿真数据,实现更高效的流转。

最后,全生命周期的服务能力。也就是从预研到场景化定制标注再到持续算法在线优化的三个阶段。

这次云测数据的数据解决方案核心变化在于之前1.0版本更多围绕企业的产品生命周期布局,预研、场景化定制标注和持续算法优化三者的重要性基本处于齐平状态。而此次升级发布的智能驾驶数据解决方案2.0版本则随着企业技术研发路线的变化而明确强调以系统集成为核心,将在线优化和系统集成放在首要位置,预研阶段的基础数据集及定制化产品服务变得相对次要。

这也表明云测数据注重自身标注平台与企业大模型相关的预标注能力的集成。因为它看到了智能驾驶相关企业的自动标注能力在不断提升,与其和企业竞速算法的成熟速度,更看重提高系统集成能力。

贾宇航提到。从趋势看,伴随自动标注能力提升,标注将逐步从手工衍化为算法自动标注、人工校验和人工标注。随着算法的实际量产,数据闭环能力增强,整体标注数据量和手工数据标注量依然在逐年上升。以往是百分之百人工标注,现在是人工标注、自动标注、人工校验各有一定占比。未来可能自动标注占比会越来越大。不过,虽然人工标注的占比在减小,但伴随人工智能行业的逐步发展数据量日渐增加,人工标注的量仍会持续增加。

写在最后

在智能驾驶领域,技术的进步与创新是源动力。尤其当前大模型的数据服务能力升级,云测数据解决方案支持BEV-transformer标注,可实现自动标注结果校验,并提升大语言模型标注能力和评测服务能力,助力智驾企业实现更自然、更智能、更多样化的人机交互方式,让我们保持关注,共同期待更好的智能驾驶未来。