云测数据:离落地越近,AI 对数据就越挑剔

「你们的客户有哪些?」「这个不能细说,很多签了保密协议。不过……」Testin 云测 CMO 张鹏飞停顿了下,手指下意识地敲了敲桌面:「我们的客户覆盖智能驾驶、智慧城市、新零售、金融等领域。」他继续补充道:「还有越来越多的智能化转型的传统行业客户,选择采用我们的数据标注服务」。

创建于 2011 年的 Testin 云测在移动互联网时代从应用测试业务出发,顺势而起并成为企业服务明星企业。经过行业前瞻判断,积极布局定制化数据标注业务领域,成立了云测数据品牌。在数据标注领域,云测数据已然是国内的第一梯队。

人工智能正迅速向应用人工智能发展,拥抱产业的人工智能对数据标注的门槛在不断提高。「比如在自动驾驶领域,现在主流的是多传感器融合方案,从摄像头增加到激光雷达,从二维图像数据发展到三维图像数据,多模态的数据帮助算法模型更好的训练,只是由于激光雷达的价格比较高,所以很少会有人去使用和标注。」但未来硬件成本的下降是必然的,而在 Waymo、Uber 等较早做自动驾驶的企业中,也已经可以看到三维图像增加的趋势。

AI 训练的「蛋白粉」

数据采集和标注都不是新鲜的事情,伴随着 AI 兴起,约在 2011 年相应的商业生态也随之而生,2015 年行业进入快速增长期,但许多问题也同时爆发——「鱼龙混杂」,可以这样形容早期采集和标注的数据。

比如人脸识别,在 2015 年左右,许多的数据采集和数据标注的小作坊开始大规模出现,主要以通用数据集和小规模采集为主,到了 2016 年,开源或是付费的数据集开始兴起,与此同时数据标注的众包业务也在野蛮生长,据估计我国有数千个相关的企业或团体,而从事数据标注众包的专职、兼职人员超过百万。

将识别准确率从无提升到 95% 的过程中,这样的数据是足够用的,但实际落地中,将准确率从 95% 提升到 99%,就显得捉襟见肘了。「我们行业里有一句话,『Garbage in , garbage out』,这是机器学习和神经网络的本质决定的。」云测数据总经理贾宇航说。

在 iPhone 推出人脸认证之后,许多安卓手机也跟进这一功能,但人们却发现,有的手机无法识别照片和真实的人脸,打印出来的也能蒙混过关。而更进一步的识别,需要机器对人脸的三维结构有一定的理解,如果还要跟仿真的面具做区别,那么还需要加上活体检测的能力,甚至精细到对面部血管和极轻微抖动的识别,来判断识别对象是否有心跳等,这显然是简单的数据获取和标注所难以满足的。

「2015 年时,数据的标注需求很简单,可能客户就说,我这有批图片,人脸拉框,尽量贴合,这个需求文档就已经描述完了,而今年,我们发现同样是做人脸标记的企业需求,一张 A4 纸都没办法把所有的要求写完。」对于这样复杂的标记任务,云测数据在做之前首先要小范围实验,然后需要开会由专人讲解,并在标注过程中随时做抽查,看标注员的理解是否正确:「精度会有多高呢?一张人脸需要你准确地在内眼角上标注人脸关键点,在图片上,内眼角也就不到 100 像素,而任务还会精确到标注到具体哪个像素上。」

工作人员正在讲解人像标注

图片来源:云测数据

而数据标注仅仅是复杂度上升的后半部分,AI 企业高精度数据的需求同样体现在数据定制化的采集上。过去几年机器学习领域以「海量数据暴力计算」的方式迅速发展,而现在这一模式也逐渐遇到了瓶颈,安防是国内 AI 落地最多的行业之一,以安防摄像头获取的数据为例,5 万小时的录像中,有足够拿来训练 AI 识别行人和车辆的内容,但最需要安防摄像头识别的是什么呢?是打架斗殴、行人跌倒等异常事件,可能在 5 万小时的录像中,这些是以分钟为数量级的。显然,这不足以训练出可以实际应用的 AI,对于这样的小数据,需要定制化的采集策略。

具体到 AI 数据服务中,以 AI 企业数据增强需求为例。在云测数据的数据场景实验室中,绿色的幕布前,一位群众演员站在中央摆出不同的表情,正对着摄像机拍摄,演员的周围布满了光源,让其面部没有任何死角。对 AI 企业来说,拍摄这样的一张「纯净数据「,可以拓展更多的数据价值。当然,搭建这样的采集环境,对 AI 数据服务商有着光线,被采样本等条件的严格要求。

表情采集讲解中

|图片来源:云测数据

「我们在前两年做人脸的采集时,对背景、光线还没有什么要求。」贾宇航说,在过去两年,AI 企业对数据的采集和标注都变得更具有策略性:「比如说自动驾驶,以前恨不得天天都在采集,把数据都标上,现在就要是在雨天、雪天去采集,要去人流密集、或者是很多卡车、三轮车的特定场景,非常细化。」

而这也是 AI 真实落地的必由之路,以往粗放式采集、大批量标记的模式逐渐被定制化采集、高精度标记模式取代,要到趋近 AI 产品落地前的水平,高质精准数据对 AI 企业来说,就像蛋白粉对于职业运动员一样必不可少。

行业洗牌在即

数据标注行业发展早期,由于门槛较低,让这个行业鱼龙混杂,同质化竞争严重,甚至出现了以往传统行业常见的多道贩子。,而供过于求的市场和过去数年 AI 企业对数据质量的相对不重视,以及数据标注员被称为 AI 从业人员的底层,让这个行业进一步陷入了低价低质的怪圈。

大量劳动密集型的数据标注工厂在 AI 产业爆发初期,为中国人工智能企业的崛起做出了巨大的贡献。随着人工智能产业的发展与进化,数据标注行业开始朝着专业化、精细化、定制化方向发展。AI 企业在逐步落地过程中发现,所需要的数据维度和复杂度正变得越来越高,数据服务的众包模式以及通用数据集已经难以满足 AI 企业的数据需求。「精准优质」、「安全独立」的数据被认为是 AI 企业落地前的刚需。

2018 年初,甲子光年曾报道称,BAT 和 AI 企业占到了数据标注任务来源的约 7 成,但随着 AI 落地到传统行业,这个比例正发生变化。「比如银行、保险、汽车这些行业,在引入人工智能时有很大的势能。」贾宇航用车内的疲劳检测来举例,虽然市面上有不少开源或付费的数据集,企业也可以比较容易地获取算法然后进行训练,但作为整车厂,关心的并不是模拟器上的准确度,而是具体在自己某一型号的汽车上,在后视镜或是中控台上摆放的摄像头的具体效果,如果数据不是真实地在这个环境下采集,很难实际论证。

「这也是深度神经网络的一个特点,比如人脸数据是在室内采集的,放到室外用可能就不行了,要产品化的话必须要结合使用场景去采集数据,才能提升识别精度。」在 2018 年的年初,市场上任务需求一般是量大质低,钱比较容易赚,而市场需求的转变,让数据服务的难度不断提升,再加上百度众包、京东众智等数据标注电商平台出现,行业标准化和透明化成成都提高,进一步加剧了行业的洗牌。

一开始就定位定制化采集和高精度标准的云测数据,采取的是自建基地模式,全职雇佣数据服务人员。从商业模式上来看,比起欧美逐渐成熟的如 Scale AI 的众包模式,云测数据想的会更远一些,自建基地模式要更稳定高效,另一方面,也能更规范性地保护数据隐私。

Testin 云测 CMO 张鹏飞补充道「从整体看来,AI 数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能『良币驱除劣币』,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程」。

「安全」和「独立」显然密不可分。据了解,云测数据坚持独立第三方的立场,与所有数据采集的用户都签订数据授权协议(包括支持欧盟 GDPR 协议),对客户定制的数据交付后不留底全部删除,并建立了从防火墙到内部信息系统管护、各终端不联网、USB 接口封死等数据保障机制来保证数据安全。

为了尽量提升效率和保证数据质量和数据安全,云测数据在华北、华东、华南建立数据标注基地。一般 AI 产品在发布前一个月就需要拿到标注好的数据进行训练,而数据训练前一个月就应该完成数据的采集,对追求速度的 AI 企业来说是分秒必争的。「我们现在千人规模的全职的数据人员,但还是远远不够。」

不久前 IDC 联合量子位发布的《AI 落地白皮书》中称,中国在全球人工智能市场占比 12%,位居第二,但增速 64% 位居全球第一,云测数据在数据采集和标准的市场还有庞大的增长空间,贾宇航认为,未来他们会更加深入 AI 细分领域和场景,并会考虑在未来进一步开拓国际市场。