无人车落地离不开它!揭秘高质量AI数据这条护城河

车东西(公众号:chedongxi)

文 | 肖涵

自动驾驶技术经过多年发展,已经进入到了落地的关键时期,媒体和公众往往也喜欢将视线都聚焦在自动驾驶公司身上。

但在长沙、广州等地已经落地行驶的无人出租车背后,其实都离不开AI数据采集标注这个工种。

▲自动驾驶数据标注图示

正是海量高质量AI测数据的“喂养”,才让无人车上搭载的AI算法能够感知识别道路上的物体,可以说数据训练对于自动驾驶来讲,发挥着“眼睛”的作用,如果不能正确感知道路环境,智能驾驶的决策系统就无法正常工作。

那么自动驾驶公司到底需要什么样的数据?背后的AI数据采集和标注工作又是如何进行的呢?

带着这些疑问,车东西与国内头部数据采集标注公司云测数据总经理贾宇航进行了一次长达90分钟的深度对话,揭开了AI数据采集标准行业的神秘面纱。

▲云测数据房山办公区

一、自动驾驶头部企业的特征:数据量第一

谷歌Waymo是全球公认的自动驾驶领头羊,但官方在宣传时,其实很少直接说自己的技术如何厉害,不过其往往会重点强调一个数据,就是自己的路测里程数,超过多少多少万英里。

在此前Waymo公布第五代自动驾驶系统时,其实际路测里程已经到达2000万英里(3200万公里),虚拟测试里程更是超过了160亿公里。

▲Waymo的无人车在街头采集数据

自动驾驶软件的核心环节为感知和决策。

为了实现更好的感知结果,大部分公司都会引入深度学习等AI技术。而想让深度学习的模型对某一类物体的识别率足够精准,就需要大量该类物体的不同数据,例如图像、视频、3D点云等。

与此同时,无人车想要量产,还必须要能够应付各类小概率事件(比如十字路口突然有行人摔倒在地)的情况,为了让决策算法能够适应这种小概率事件,自动驾驶公司也需要有这种小概率事件的数据进行针对性地研发和测试。

所以总结一下就是,无论在感知还是决策环节,自动驾驶公司都需要大量的交通数据来进行研发和测试,数据量就决定了自动驾驶公司的技术水准。

这正是Waymo为什么一直强调自家数据量足够大的原因。

除了Waymo,特斯拉也在量产车上部署了一个影子模式,就是在人类驾驶员开车时,其名为Autopilot的L2级自动驾驶系统也会工作,去收集一些特定数据,然后上传到后台来优化Autopilot系统,并逐步从L2升级到FSD(L4级完全自动驾驶)。

▲特斯拉的L2级自动驾驶系统表现极佳

特斯拉旗下的车型目前总销量超过100万台,按照每台车2万公里/年的行驶里程来算,特斯拉每年理论上最多可收集200亿公里的实际路测数据(实际情况只收集特定数据)。

正是这样的数据规模,才让特斯拉的Autopilot系统遥遥领先于奔驰、宝马、大众等传统车企,并且不断推出像是Navgate on Autopilot、智能召唤、红绿灯识别等新功能。

总结来看,自动驾驶技术领先的企业,数据量一定领先。

二、自动驾驶争夺战打响 对高质数据需求增加

自动驾驶技术应用后,不仅仅能够解放人类驾驶员,还能组成智慧交通体系提升整个社会的通行效率,并改变网约车行业、汽车行业、运输行业甚至是零售行业(例如移动无人商店),意义重大。

所以在谷歌Waymo研发数年后,中国、美国、欧洲、日韩等地区也相继涌现出大量自动驾驶公司,而像是苹果、英特尔、百度、上汽、通用、本田等IT巨头、车企巨头也加入到战局之中,一场席卷全球的自动驾驶技术争夺战已然打响。

正如前文所言,在研发高等级自动驾驶技术时,还原实际场景的路测数据或交通数据,是关键“燃料”。在这场自动驾驶技术争夺战的背后,高质量的数据已然成为各大车企护城河建设的重中之重。

▲美国街头的Waymo无人车

为了助力本国企业抢占自动驾驶技术高地,各国政府也在迅速出台政策为技术应用落地铺路,并规范行业发展。

例如今年2月份,发改委、工信部、财政部等11部委联合印发的《智能汽车创新发展战略》,给了智能汽车一个较为清晰准确的发展时间规划,在业内人士看来,“战略”勾勒出智能汽车发展的“远大前景”。

例如北京最近出台的路测规定,已经允许无人车进行载人测试(即无人出租车可以上路测试了),但同时也提出了一系列要求,比如想要申请载人测试,需要先通过实车+仿真测试,且此前的无载人测试中,最近1年内不能出现过交通事故。

毫无疑问,随着自动驾驶竞赛的逐渐白热化和政策的不断演变,自动驾驶行业对行驶过程中涉及的真实场景数据的需求量可谓是日益剧增,谁拥有更多的数据,谁就能够在这场争夺战中取胜。而像特斯拉和Waymo这种车企采集到的数据又十分有限,所以高质量的自动驾驶数据提供商成为了整个行业的命脉之源。

三、云测数据深耕质量 致力于为行业提供好数据

自动驾驶研发离不开数据的支持,但数据也并非是“傻多”,还需要质量到位才能发挥作用。

云测数据总经理贾宇航告诉车东西,高质量的数据有三个大框架——还原场景、大数据量、标注精准度高。

还原场景就是说自动驾驶数据要有针对性,比如某自动驾驶公司想训练一下无人车应对十字路口行人摔倒这种突发情况的能力,那么算法需要的场景数据就必须是发生在十字路口,如果是高速公路则必然不行。

同样的,即使是在十字路口这一特定场景下,还要尽可能多的让数据丰富起来,比如是白天、黑夜、雨天、阴天的十字路口,同时行人的衣着、摔倒的姿势、过程,也要尽可能的覆盖更多的可能性。

只有这样,才能让无人车上的AI技术完整识别所需场景,并作出正确决策。

对自动驾驶公司来说,想要收集到类似“路口行人摔倒”的场景数据,自然十分耗时耗力。

为了解决这一难题,云测数据在北京、横店、天津等地搭建了场景实验室,为的就是能够模拟还原不同的场景来进行数据采集。

▲云测数据的成员在搭建场景实验室

“比如我们在我们自己的数据采集基地搭建了路口这个场景后,会招募上千名群演过来模仿路人摔倒的情况,每个人的衣着、行为举止都不一样,并且还会考虑到白天、黑夜、黄昏等不同的光照条件,来还原客户所需要的场景数据,做到足够真实。”贾宇航这样说道。

通常情况下,云测数据团队会使用自动驾驶公司提供的无人车来采集数据,以完美匹配该公司的传感器设定。而如果暂无车辆可用,云测数据团队也拥有自购的各类激光雷达、摄像头等硬件设备,并拥有专业人员进行传感器标定,可以满足不同自动驾驶公司需求。

采集足够丰富的数据只是提供“养料”的第一步,随后还要对数据中的关键物体(例如车辆、行人、甚至是固定物体)进行标注,才能供深度学习算法使用。

数据标注工作不仅需要标注人员拥有特定领域知识来保证数据标注的精准性,同时又对标注工具的熟练使用、以及作业中的效率保证、标准化流转管理等等众多因素有着要求。对于自动驾驶公司来说,将数据标注工作交给云测数据这类专业公司其实是最好的选择。

这方面,云测数据在华东、华南、华北等地拥有着自建的数据标注基地,通过具有自主知识产权的标注平台和专业的标注人员团队,为高质量的AI数据交付提供着坚实支撑、

“数据标注的准确率和贴合度至关重要,比如要在一个2D图片或3D点云图里标注出汽车,要尽可能的不出现错标和漏标的情况。同时,标注的矩形框还要尽可能的与物体贴合。”贾宇航解释道,“云测数据利用自主开发的标注工具,即使是3D点云图像,也可以保证数据标注的流畅性和时效性,以及行业内领先的数据标注精准度。而像是2D图像中的标度贴合度,也可以做到5个像素以内。”

▲云测数据的团队在进行3D点云标注

正是定制化的场景、丰富的数据量,还有高质量的标注结果,让云测数据获得了行业内几乎所有的自动驾驶客户认可,既包括自主、合资车企,大型Tier1,也有做无人出租车的自动驾驶公司。

据贾宇航介绍,涉足自动驾驶领域3年多来,云测数据仅在难度较大的3D点云数据上,就大概输出了接近1000万帧的数据,可谓是经验丰富。

“我们的产品价格处于主流区间,不仅能提供丰富的高质量场景化数据,还能保证项目的高效交付,获得了很多客户的好评,有些自动驾驶公司还会直接跟我们签订年度服务协议,把他们采集的数据交给我们来进行标注。”在对话最后,贾宇航这样说道。