从小作坊到大生产,AI数据标注转捩点

2018年初,「甲子光年」曾发布《“数据折叠”:今天,那些人工智能背后“标数据的人”正在回家》。劳动密集型是人们对数据标注行业的固有印象,基层数据标注员被视为数据时代的“隐形人”,他们的工作日常就是坐在拥挤的小房间里,不停地按动鼠标,框取对象,依靠微薄的月薪在繁华的大城市里找到自己立足的一席之地。

而不久前的一个周三,「甲子光年」在位于房山的云测数据标注基地看到了另一种行业作业形式。

云测数据的其中一个标注基地是坐落于房山区北京金融安全创意产业园的一幢四层半高的小楼,一半是开放式办公区域,另一半是按项目组设置的封闭房间,除了房间四角安装的监视器之外,跟普通的创业孵化园区并没有太大区别。

第三层主要处理对安全性较高的数据标注业务,设了门禁,需要通过指纹识别才能进入。

标注员李楠(化名)告诉「甲子光年」,两个月前,她刚从数据标注员升级为质检员。

她在大董村跟同学合租了一个20平的开间,起初是四人合租,涨薪之后变成两人。她每天上午步行十分钟到基地上班,偶尔也需要加班。闲暇时间,她会练练手卷钢琴缓解工作压力。

云测数据房山数据标注基地的砖红色大楼,每日吞吐着数百名数据标注人员。这里不仅是他们的工作地点,也是他们周末的烧烤聚会地。

从业者生活和工作方式改变的背后是数据标注行业拐点的到来:蛮荒时代正在过去。

智研发布的数据标注行业报告指出,2018年我国数据标注与审核行业规模达到52.55亿元,其中34%左右的业务量流向专业做数据采标的第三方公司。

「甲子光年」观察到,供给侧的马太效应开始显现,体量较大的公司呈现出两种业态:一是众包平台、二是定制化服务。

在众包赛道上,已诞生了Scale AI、Appen为代表的明星独角兽。而定制化服务模式对企业管理和标注员的要求较高,代表玩家包括云测数据、百度。

本篇,「甲子光年」以提供定制化标注服务的云测数据为例,看数据标注自营模式的发展与挑战,以及数据标注的未来图景。

成立于2011年的Testin云测公司,以应用测试服务起家;2017年正式启动了数据标注业务。截至目前,云测数据已拥有近千名全职数据服务人员,服务领域包括自动驾驶、智能家居、智慧城市、智能金融和新零售等领域,客户数量已达数百级,标注业务客单价已达百万级。

「甲子光年」采访了云测数据总经理贾宇航、云测数据交付负责人朱文辉、Testin云测CMO张鹏飞、IDG资本牛奎光、品览创始人兼CEO李一帆、某Robo-taxi公司深度学习技术负责人Ted(化名)及多位数据标注从业者,并实地走访了云测数据标注基地,发现数据标注行业的以下趋势正逐渐显现:

第三方数据服务的外包公司正在数据标注行业中获得更多市场;效率、安全等因素综合而成的性价比成为当下竞争核心;在定制化服务的模式中,工具提效和管理优化成为构筑效率壁垒的关键。

1.拐点将至

Garbage in, garbage out.

数据、算力、算法是推动人工智能技术进步的“三驾马车”,其中数据是人工智能行业的发展基石,数据对人工智能很重要,“没有好的数据,人工智能没有未来”早已是行业共识。

新变化在于,随着人工智能技术落地场景,不同场景提出了更高质量、更多元的数据需求。

对视觉数据标注需求非常大的自动驾驶领域,很好地展现了数据标注服务的业态变化。

在2016年,人工智能随AlaphGo强势崛起并引发一系列创业、创新活动后,数据标注迎来第一次真正意义上的爆发,但由于当时各公司的人工智能业务多处于“跑Demo”、“做研发”的落地前环节——在质上,用标准数据集就可满足;在量上,规模也不可与现在相比。

所以当时的数据标注行业门槛较低,小作坊遍地开花,被视为“人工智能背后的富士康工厂”,标注人员也鱼龙混杂。「甲子光年」FA副总裁李世民介绍,在粗放期,数据标注的工作页面和网页版PS十分相似,重复性的简单拉框就能实现项目需求,一张图的价格不过几分钱,外包商全靠数量获取微薄利润。

而以Waymo、小马智行、文远知行等为代表的做L4级自动驾驶系统的公司或其他对数据有较高要求的公司,则多在内部建立标注团队,解决前期的标注问题。

然而,从近两年的市场数据来看,第三方数据标注与审核公司开始变多;原本十分分散的数据标注行业走向专业化的拐点正在发生。

智研统计数据显示,2018年我国数据标注与审核行业规模达到52.55亿元,约34%的业务量流向专业做数据采标的第三方公司。

其中,专业第三方数据标注与审核公司的业务增速始终维持在全行业的最高水准,超越行业平均值、人工智能企业内部标注和人工智能外包公司相应业务增速;即便在增长相对放缓的2017-2018年也高达88.11%。

这背后有三大驱动力。

一是成本问题——这是专业第三方公司相比于自营的优势:随着数据量越来越大,如果雇佣大量人力进行数据标注,大多数人工智能公司都无法攻克人员管理的挑战和承担随着数据量增长的巨额薪资。

二是质量问题——这是更成规模的专业第三方公司相比于外包小作坊的优势,自营数据团队的第三方模式在这一点上尤为明显;因为散兵游勇和小型工作室,较难在岗前培训、质量控制和数据安全上做足够的投入。

三是客户结构改变带来的新机会——即除了人工智能公司或有相关业务的科技公司外,各行各业的企业都开始更多投入数字化和人工智能,其中部分企业,一方面有对外采购技术服务的习惯和流程,一方面又缺乏非常先进、成熟的内部人工智能技术,比如无法像很多人工智能公司那样,快速开发自己的标注提效工具,这类公司会更加倚重专业的第三方服务,这扩大了整体市场规模。

对数据标注需求大且复杂的自动驾驶公司也逐渐从最初的主要依靠自有团队标注转向部分采购第三方服务。

某Robo-Taxi公司深度学习技术负责人Ted(化名)告诉「甲子光年」,现在,公司内部的数据团队除了数据检查,还会负责比较特殊的数据类型标注,但需要大量数据的方向,会找外包公司。

“对于Robo-taxi这种比较specific(专业)的产业来说,最终目标是实现100%的无人驾驶,这意味着我们的模型不能出错。”Ted解释:“但再高精度的机器算法,再全面的传感器设置,也只能保证95%的准确率,要想更上一层楼,必须依赖更精准的标注数据用于算法提升。”

需求侧的变化,传导到供给侧,引起了一轮洗牌。

一方面,马太效应日显。

诞生于硅谷的Scale AI,在短短三年内,成长为市值破十亿美元的明星独角兽,而今年的销售额已增长至近亿美元,4个月前,还宣布完成了1亿美元的C轮融资。国内巨头的增速同样亮眼,例如Testin云测旗下数据标注品牌“云测数据”,业务规模量每年都在以倍数的规模增长。而据艾瑞咨询最新报告显示,2018年中国人工智能基础数据服务年复合增长率为23.5%,数据标注赛道主要玩家的增速远高于行业平均水平。

另一方面,更多类型的玩家都想来分一杯羹:

国际巨头亚马逊、Appen早早入场,已在数据标注市场占据一席之地。国内BAT等老牌互联网巨头也将数据标注纳入自己公司的业务范围,成立项目组(部),对内降本,对外创收,如阿里数据和京东众智。

近来,行业头部企业进一步涌现,如2015年成立的Scale AI,3年跻身独角兽;以测试起家的Testin云测在2017年积极布局数据标注领域。

仔细分析这些主要玩家,其实模式主要有两种:一是众包平台,二是自营团队。

前者以“需求公司——标注公司作为数据标注平台——第三方标注团队协作”为主要结构,起到串联有数据标注需求的客户以及零散的大众志愿者的作用。

后者则省却了中间众包商环节,形成“需求公司——数据标注公司”的垂直结构。

“目前,大多数公司采用众包模式,国际上大名鼎鼎的如Scale AI、Amazon Mechanical Turk以及澳洲Appen走的都是这条道路。”李世民说。

而云测数据,则选择了玩家更少、专业性更高的一条路——定制化数据服务。

云测数据的选择来自对市场和自身的思考、判断。

“两种模式其实是共存的,客户可以根据自身需求进行取舍。”云测数据交付部门负责人朱文辉评价道,但就当前标注规则愈加复杂、交付周期缩短且对安全性要求提高的市场趋势来说,定制化模式更有前景。

云测数据总经理贾宇航告诉「甲子光年」,随着人工智能对数据采标的复杂度和精细度要求变高,众包在现有技术条件下,很难实现品控。

“以人脸识别为例,以前的需求是拉框、标注五官,现在需要标注几百个点,精确到3-5像素以内。”贾宇航补充说:“我们希望通过精准高质、独立安全的数据帮助客户快速构建核心壁垒。”

此外,云测数据从测试业务中继承了to B的企业基因,一方面积累了品牌口碑和客户资源,另一方面也贯彻了严格把控质量的管理风格,这也是云测数据入局数据标注的优势所在。

Testin云测投资方,IDG资本牛奎光总结道,效率和贴合度是当前数据标注供应商竞争的核心:“定制化可以用最高效的方式提供人工智能落地前最后一公里的数据服务。”

他认为,随着人工智能产品进入落地多元行业和场景,作为人工智能算法的“养料”,数据也向着场景化发展。可以说在算法、算力没有重大突破的前提下,场景化的数据就是核心优势。因此贴合度较高的定制化服务能力就显得尤为重要。

2.双面“做重”

从实践效果看,云测数据的选择在市场和客户之中获得了很多良性反馈。

“我们的业务规模量每年都在以倍数的规模增长。”贾宇航告诉「甲子光年」,云测数据标注服务了安防、驾驶、金融、家居等领域的上百家企业。

“自动驾驶产业是比较适合定制化服务的。”Ted表示将跟云测数据建立长期的合作关系。

Ted接触过很多数据标注供应商,包括硅谷的Scale AI,国内的云测数据、BasicFinder和百度数据等,他采取“试标注”这种遍地撒网的方法——将相同的标注样本给到不同的标注公司,根据标注结果择优合作——挑选最具“性价比”合作伙伴。

作为客户,Ted认为,首先,打价格战的时代已经过去了,同一价格区间内,质优者胜。

“质量代表着速度。”李世民解释说,人工智能工程师的时薪很高,企业雇佣他们处理数据的成本也很高,一旦数据失准,在上游的数据标注和下游的人工智能工程师两端,会产生双重的成本浪费。

例如,在一个机器学习的完整工作链条中,数据清洗和标注在总任务中所占的时间比例超过50%。如果无法保证数据的准确性,便会出现无效训练和无限返工的恶性循环,对寸时寸金的人工智能公司行业而言,这无疑会造成巨大的负面影响。

“毕竟是劳动密集型工种,定制化的人员培训很重要。在全景标注和3D点云这类难点项目上体现得尤为明显。”Ted补充说,全景图中标的物多且杂乱,稍不注意就会有错漏,整张图都要打回重标;3D点云中,距离较远的物体点数较少,很难识别,更别提辨别朝向了。

一张全景分割或3D点云的标注单价高达20-30元(价格以项目需求为准,不作为行业参考价),但Ted看来,“即便价格高一点,我也愿意跟云测数据这样互动性强、准确度高、保密性好的数据标注公司合作。”

其实,对于整个人工智能行业来说,高质数据的价值都在日益凸显。

曾负责过企业软件采购的朱文辉,对成本和质量的取舍之道很有心得:“手头也有过几百上千万的预算,特别明白客户的心态——宁愿多付钱也要质量过关的产品。”

其次,在选择供应商时,互联网巨头不如独立第三方数据标注公司吃香。

“大厂的业务水准虽然非常advanced(先进),但考虑到母公司可能也有自动驾驶的团队或业务,难免会担心自家数据被拿去训练别人的模型;再加上要价不菲,所以合作并不多。”

Ted继续补充,如果跟第三方数据标注公司合作,就不用担忧这种问题。他们要价合理,而且既不会把数据外泄,也不会自用。

最后,固定数据标注团队的优势还在于,长期服务某类项目能实现自我迭代。

专注于人工智能视觉领域的物品识别的品览数据科技也是云测数据的客户之一,其创始人兼CEO李一帆认为,对于一些需要搭建测试环境、要求专业知识储备或涉及复杂场景的数据标注任务来说,标注人员培训成本较高,如果长期有这样高价值的标注需求,定制化的性价比反而更高。

把数据效率放在第一位的自营团队,很擅长应对这类需要专人快速响应的标注需求。

朱文辉告诉「甲子光年」,近年来,客户面临的竞争压力变大,花钱更为谨慎。虽然整个市场对数据标注的需求在上升,但场景差异变大,相应地人力成本也在上升。“量小、批次多、难度大是整个数据标注市场的大趋势。”朱文辉补充道。

另外,自营团队一般会根据项目组织人员,在两三批数据的交付之后,标注员会变得更加熟练,效率也会自然跟着提高。

但任何一种模式都是双刃剑,定制化也有挑战和短板,即人工成本和管理成本高,且应对需求的弹性不足。

对标Scale AI的Graviti创始人崔运凯评价说:“定制化模式对抗业务潮汐的能力较差。”

需求的弹性会导致自营团队模式出现人员冗余或人员短缺的问题,任务分发上不如众包公司灵活;人力成本也高,尤其随着数据标注团队的线性扩张,管理团队层级会增多,人数会指数级增长。

3. 效率壁垒

经纬的创始合伙人张颖曾对创业公司提出短中期内最有意义的七条建议,第一条便是:所有轻公司以后都会做重,也必须做重,只有做重才能有效抗拒巨头杀入,也唯有如此才能做大。

其实不管是重的定制化服务,还是轻的众包平台,表面的轻重之外,真正核心的是满足市场当下需求与公司自身效率之间的平衡。

从需求的角度来说,目前市场的两个特点,能一定程度上自然规避定制化的弊端。

首先,整个市场仍在放量增长,尤其是传统行业,会成为数据标注的新增长引擎。

2017年贾宇航从Testin云测北美事业部回到北京总部,并与很多美国的人工智能从业者都保持着密切联系,他认为中国市场具有独特性,传统行业智能化升级对数据标注市场的拓展潜力不可小觑。

在五年的旅美生涯中,贾宇航观察到,中国人的模式创新意识更强,更容易出现分散式的产业革新,“美国全靠Google和Amazon这样的巨头带动,相比之下,中国人工智能落地的动力多了一级,这将是一个高新科技产业和传统产业相向而行的过程,其中的市场空间是无穷的。”

随着人工智能在金融、医疗、安防等多个领域实现技术落地,人工智能公司对数据的使用逐渐有“大”的趋势,整个行业正在逐渐向多模态、多场景、高精度的方向发展。

基于这一洞察,企业服务型公司Testin云测扩展了数据标注业务品牌云测数据,通过自建数据场景实验室和数据标注基地,为智能驾驶、智能家居、智慧城市、智慧金融、新零售等领域提供定制化的数据采集、数据标注服务。今年早些时候,Testin云测CTO陈冠诚曾在采访中表示,云测数据在AI数据采集标注行业将继续扮演“同行者”的角色,除了满足客户的需求之外,还希望提供更高效率的服务:“我们一直在用工程化迭代的技术不断改进采集标注的流程效率、加快人工标注速度。”

其次,当前市场还处于蓝海,所以潮汐现象和浪费不明显。

提及业务潮汐的风险,贾宇航答道:“我认为这个问题目前不对我们造成任何困扰,市场供需极不平衡,打个比方,我们和客户之间比较类似高精尖企业和人才之间的供给关系,需求远大于供应量。”

很多数据标注从业者也有类似的评价,有人将数据标注市场形容成“一片商业蓝海”,也有人说“同行之间甚至都算不上竞争对手”。

说法大同小异,结论却很一致:目前人工智能行业对精确优质、安全独立的数据标注服务需求极大。

Testin云测CMO张鹏飞也强调,“从整体看来,AI数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能‘良币驱除劣币’,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程”。

整个行业在可预见的很长时间内都会处于供不应求的卖方市场。

此外,对于Testin云测这一类企业服务赛道上的明星玩家来说,此时入场扩张数据标注业务更是近水楼台先得月——他们以往的测试等业务已积累了一批现成的渠道商。

连续创业者李一帆起初是Testin云测测试业务的客户,2018年成立品览后有了数据标注的新需求,他选择了跟“老伙计”Testin云测继续合作。

“其实我也向其他数据标注公司询过价,最终选择云测数据是出于两方面的考虑。”李一帆解释道:“一是因为更换合作机构的切换成本和沟通成本太高;二是相对于其他数据标注机构,对云测数据的专业度和服务质量比较了解,更看好云测数据的质量和安全性把控,和对人工智能行业的前瞻思考,也更有信心。”

云测数据的人工智能数据团队运营至今已制定了一套包含任务分配、需求分析、需求确认、数据清洗、试标确认、进度控制、质量保障等流程的完整作业体系。

牛奎光评价道,Testin云测一开始更多的是提供基于质量工程化的服务,随着人工智能时代的到来,对人工智能企业提供数据服务,实际上也是在加速移动互联网、产业互联网、人工智能产业的生命周期。

朱文辉告诉「甲子光年」,就整个数据标注市场而言,合作与竞争都是下一个阶段的议题,同行还在自觉共建行业生态和品牌声誉,“把蛋糕做大”才是当前的发展重心。

此外,自营团队做定制化数据服务,是不是一定效率低下?

可以用制造业来类比,半手工的作坊和机器大工业生产,虽然同属“制造”,但效率天差地别。差距由两个关键因素导致,一是自动化水平,也就是工具提效;二是生流程管理——云测数据在这两方面都已有较多探索。

在工具提效方面,云测数据自研了一套可以支持图片、语音、文本等多品类的标注工具,并开发了三维标注工具,尤其是在3D点云的标注系统中优化了渲染引擎,保证整个过程的流畅和快捷,当属业内领先。

“我们注意到在3D点云连续帧标注时,前后帧的切换非常耗时,云测数据的web GL工程师通过自研渲染工具把缓冲时长缩减至十分流畅。”贾宇航在北京总部向「甲子光年」展示了优化之后的标注工具。

据朱文辉介绍,云测组建了一支专门的研发团队,“研发团队里有产品经理、前后端工程师”等,他们会针对不同领域循环式地改进标注工具,并根据客户需求,实时反馈、实时更新、实时研发。“平均每季度或更快有一次较大的迭代。”朱文辉回忆道:“迭代之后有些领域的效率提高了三倍不止。”云测数据从启动伊始,就十分重视技术提效,陈冠诚曾在采访中提及:“(云测)数据采集标注的客户遍布各行各业,对于文本数据、语音数据、视频数据甚至是激光雷达的3D点云数据,我们都可以用工程化迭代来做高效的标注和流程管理,提高效率,帮助客户成功。”在流程管理方面,云测数据也建立起一套包含岗前培训、早部署晚复盘、分项目人工质检的管理系统。朱文辉告诉「甲子光年」,目前云测数据在华东、华北、华南共设有三个标注基地,还有几个基地在部署中,现在共有千人规模左右的数据服务人员。“新人都会经过两个月的岗前培训”,朱文辉说,随着行业要求的提高,人员也在更新换代,我们的激励机制和晋升机制比较完善,还提供园区食堂的餐补,年轻人的离职率并不高。”

除了积极招兵买马,云测数据还有相当一部分的项目经理是从传统制造业转型而来,“这些人很懂环环相扣的流程管理,对包括风险、成本等流程节点的控制很在行。”朱文辉补充道。

牛奎光称:“云测数据的数据服务优势,除了数据质量、规模化以外,其效率优势也很突出,因为企业产品都有对应的发布周期,对效率的要求也会越来越高。”

朱文辉认为,谁能优先突破认知效率、管理效率和标准化,谁就很有可能在一众数据标注公司中拔得头筹。

4.进化:新物种的可能性

从整个数据标注赛道来看,这个此前”隐于聚光灯之外”的行业,正在走向大众的视野,展现更多可能性。

一是可预测的,数据量的爆发增长。

当前,人工智能正全面加速产业落地。德勤预测,2025年世界人工智能市场将超过6万亿美元,2017-2025年人工智能复合增长率将达30%。

贾宇航认为5G到来之后,整个人工智能行业数据量将会向横、纵拓展。

横向拓展,是人工智能从科技公司走入各行各业公司。

比如贾宇航告诉「甲子光年」,云测数据大部分的客户来自智慧城市和驾驶等与人工智能结合紧密的领域,但一个明显的新发展是,来自金融、家居等传统行业的客户正逐渐增加,而在两年前,这类客户的占比几乎为0。各行各业的数字化、智能化,很可能成长为新的增长点。

纵向的拓展则是,随通信、芯片等基础设施的发展,物联网潮流下,硬件、传感器数量持续增长,相应的数据量持续增长,各行业、各场景都将经历更深程度的数字化。

“从深度学习、机器学习的发展趋势和应用方向可以明显看到,不管是钻得更深或是在应用层面铺得更广,我们都会需要更多数据。我觉得这个趋势至少还能保持十几年。”Ted相信,未来数据标注的重要性也许还会跨上一个新台阶。在现有以监督学习为主的技术环境下,数据量爆发意味着标注需求的爆发。

二是,标注业务本身的智能化、人工智能化。

贾宇航告诉「甲子光年」,随着算法的突破,图像生成技术会极大地提升数据采集和数据标注行业门槛。针对企业的数据需求,将更加定制化,同时也凸显数据需求定制中的策略性。现在的技术可以通过数据增强技术额外合成的数据来模拟移位(Translation)、视角(Viewpoint)、大小(Size)、照明(Illumination)等等条件,生成更多可用于训练数据。具体到AI数据服务中,在数据采集和标注环节, AI企业对数据服务商有更加严格的要求,如环境,光线,被采样本等采集环境的搭建。AI企业拥有这些纯净数据,可以更加有效的拓展更多数据,达到数据增强的目的。

例如,“通过定制化的数据采集方法,客户可以规定特定的光线角度和绿墙背景,得到一组可塑性较强的原始数据,再通过变换背景、合成光线、调转光源角度等等方法,得到成百上千倍的衍生数据。”贾宇航也强调,这样的元数据对相关条件的控制往往异常严格,因此对第三方数据标注承包商的要求也更高。

“届时劳动密集型的产业特征将被改变,方法论和策略性将更优,采集和标注的时间成本也将大大缩小,数据标注公司有可能都将进化为高精尖的定制化团队。”贾宇航补充道。

也有不少从业者认为预标注技术和半自动化校验可能将推动数据标注行业进一步进化。

“在特定场景中,预标注工具把小数据变成模型再去预标,缩小人工调节的空间。”李一帆判断,预标注技术的逐渐成熟或许会在未来大幅降低标注成本。

Ted也提到,Scale AI聚集了一帮人尝试用算法来辅助标注,如果成功,只需几个点,就可以生成整个面的自动标注,这将会极大地提高标注效率。

但就目前的市场现状来看,预标注技术在很多细节上并不精准,Ted认为,距离预标注技术的应用落地,还需要很长一段时间。

在数据质检流程上,也有用自动化技术和人工智能技术提效的空间。

“如果可以用半自动化的方式实现验收或是自动对比,可以节省掉相当一部分管理层的人力成本。”Ted提出了另一个可能会让数据标注行业更有效率的方式,并不是要用机器取代人工标注,而是用机器辅助人工标注。

贾宇航也有相似的观点,他表示,云测会投入更多人力进行验收工具的研发,提升质检效率,提高标注质量。

随着人工智能技术与场景的结合逐渐深化,科技创业者们进入了一片没有航海图的水域,对于伴生的数据标注行业来说,未来的航程同样值得期待。

这真像刘禹锡的那句:“沉舟侧畔千帆过,病树前头万木春”。