助推AI产业化的秘密武器——数据行业揭秘

从1956年美国达特茅斯会议与会的专家们确认人工智能的名称和任务以来,AI正式诞生。经过半个多世纪的发展,人工智能发展得怎么样了?也许用几组数据最能说明问题:

1998年至2018年间,全球AI领域论文、期刊数量大幅增长,总数突破63万篇,年复合增长率达到11.59%。

截止2018年上半年,在全球范围内共监测到4998家AI企业。其中美国2039家世界第一,其次是中国1040家(不含港澳台地区)。

2013年以来,AI领域投融资规模情况持续高涨。2017年AI投融资总规模达到395亿美元。

进入2019年,人工智能发展仍然如火如荼。“人工智能市场继续快速增长。”IDC认知/人工智能系统研究主管David Schubmehl说,“希望利用人工智能、深度学习和机器学习的供应商需要迅速采取行动,在这个新兴市场中占据一席之地。IDC已经看到使用这些技术推动创新的组织在收入、利润和整体方面受益,领导各自的行业和细分市场。”根据IDC报告数据统计,2018年中国人工智能市场规模达17.6亿美元,至2023年将达到119亿美元。全球认知和人工智能系统的支出将在2022年达到776亿美元,是2018年预测的240亿美元的三倍多。

作为人工智能的三大决定性影响因素,算法、算力和数据,在过去的几年时间里也纷纷取得了突破。机器学习、深度神经网络等算法理论的升级,让人工智能在核心技术方面取得重要进展;GPU、并行计算等异构计算及AI芯片、5G的普及,成为人工智能计算能力的重要支撑;此外,全球数据的快速增长催生数据产业蓬勃发展。

数据的快速增长催生数据产业蓬勃发展

在数据的加持之下,新一代人工智能的发展也成为热点。但是就目前的数据采集和标注的情况来看,缺乏各种场景化、领域性的数据是一种新常态,传统的数据满足不了需求。AI对数据的质量、规模和个性化方面的要求会越来越高,也成就了一批在数据领域“淘金”的企业。

AI不灵光的背后:缺乏数据

作为人工智能的领头羊企业,谷歌的地位不容质疑。但是在过去的1年多时间里,因为AI的不灵光,导致了这家IT企业的CEO在面对外界质疑时感到非常尴尬。

2018年底,网友在Google搜idiot(中文意思白痴)时出现的80%结果都是特朗普,这个问题让谷歌首席执行官桑达尔·皮查伊感到十分恼火。他对此做出了回应:“我们的搜索结果,大多数都是根据数据进行智能判断的。”据了解,谷歌的程序会把整个互联网的信息搬到数据库,然后从数千亿个网页中收集信息。当有人用谷歌搜索引擎搜索时,系统会通过Google搜索“算法”的列规则和流程提供这些信息。在此过程中,将用户的查询请求与索引中的信息进行比较,并确定出现在搜索结果顶部的页面。

谷歌的算法应该是可信的,但是为什么会出现这种情况?很大的可能性是因为数据质量欠佳,或者某一类型的数据欠缺,导致了系统给出了这样的判断。在此之前的2018年初,谷歌的一款人工智能APP甚至将一名亚洲男性识别为女性,甚至把一对黑人兄妹误认是猩猩,最后导致了APP下架。谷歌发言人表示:导致这种原因的结果是因为目前图库所存的图片不够多,历史画作无法对应现实世界的真实性。

可以看出,数据对于AI的重要性非常高,甚至会影响到它们能否按照预想的目标来运行。对高质量数据的需求是无止境的,AI数据众包服务也逐渐进入了企业们的视野。在国外以亚马逊的Mturk规模最大,据称拥有50万人每日在线提供数据的采集和标注。Mturk能够利用全球员工的集体智慧,技能和洞察力来简化业务流程,增强数据收集和分析,并加速机器学习开发。

国内率先瞄准数据众包服务的是一些互联网巨头,如百度、京东,除此之外还有主打自建采集标注基地的云测数据等企业。按照云测数据总经理贾宇航所说,帮助企业打造数据核心壁垒,大幅度推动AI进一步落地,是云测数据一直赋予自身的“使命”。

从测试到AI,找准切入点是关键

从2017年开始是中国人工智能爆发的时代,越来越多的移动APP公司开始利用人工智能帮助更新交互化的模式,比如刷脸开机,采用AI技术为用户服务。企业通过产品优化提供更好的服务,未来人工智能在产品迭代过程中变得必不可少。云测成立于2011年,业务主要集中在移动APP测试领域。随着人工智能在产品开发端的融合,一些 AI 企业主动找到云测提出 AI 数据服务的需求。如果说最初选择应用测试是行业所趋的话,这次与“数”结缘则完全是需求导向。

从2017年开始,云测数据开始对客户提供定制化场景数据采集和标注服务

为什么选择在数据服务领域发力?贾宇航这样回应:算力,主要通过计算来优化模型(算力,主要是企业内部的运算资源),这一领域更多的是硬件企业及云计算在涉足,客户通过服务购买或硬件投入的形式完成。算法更多的是企业通过自研的方式或通过调用第三方API在投入,主要成本是研发、人力和算法调用,包括各种开源的算法。他们如果和场景结合,就需要更多的企业来提供数据。

就这样,一些企业欠缺使用场景的数据,就可以通过云测数据来提供样本或者搭建场景,进行采集、标注,交给算法模型进行验证,做到识别率的提升。也有一些企业的产品发布了,一些环节还需要完善,也通过云测数据补充采集一些数据并进行标注,优化算法,实现在线升级,提升精度。

从行业角度来看,2014年-2015年人工智能刚刚爆发,数据服务企业更多地是通过网络爬虫等工具收集收据,并打包成产品卖给企业,这些通用的产品能解决客户的普遍需求。到了2016-2017年,数据众包服务模式开始出现,亚马逊劳务外包平台Amazon Mechanical Turk就是典型。传统互联网上的人脸照片包括多人多侧脸的照片,但是很难找到一个人多种侧脸的照片,在这种情况下,通用型产品或者互联网的数据很难解决的问题,Turk则可以获取到这种数据并进行补充。到了2017-2019年,人工智能对数据的需求进一步升高,算法中存在很大的局限性,来源于已有设备中的元器件、传感器采集到的数据对算法的提升作用非常有限。像云测数据这样的数据服务企业就会自研一些场景或者是硬件,不仅对已有的数据质量进行提升,还会对不同维度的数据进行采集。比如在收集图像数据同时采集声音,帮助进行判断。

从2017年开始,云测数据开始对客户提供定制化场景数据采集和标注服务。贾宇航介绍,“基于人工智能对不同维度数据和不同场景环境下数据采集要求,我们在华东、华北、华南都设有数据交付中心和采集基地。比如有客户提出采集24种不同光线下的人脸表情,云测数据会安排特定人群到特定场景实验室进行表情采集,给客户提供特定场景、设备下的用户特征数据,以帮助企业完善产品发布之前需要的数据。”

随着时代的进步,人工智能对数据的要求也更加复杂,精度会有提升,对标注对象关键点的数量、序号会有不同要求。针对这些变化,云测数据从2017年开始搭建自己的标注团队和基地,通过提出方法论,对应教学流程,以自建基地的方式,让标注和质检人员、项目经理每天面对面沟通,确保每个人能够理解,并掌握标注有关技术,技能和经验能够得到持续的提升。

对于沟通产生的作用,贾宇航表示,“很多标注人员即使知道该标在哪个部位,可能在精度上还会相差几个像素,这样的操作过程到了质检系统那里就会通不过,质检人员会在流程中将工作打回重新标记,项目经理通过这样的沟通,会对每个人员的标记痕迹及特点进行统计,然后进行一对一的交流,这样的过程能够帮助他们进行理解。”

满足客户数据需求,提升AI竞争力

随着技术的发展,AI会和产业融合越来越紧密。对于数据服务企业来说,也需要具备相关产业知识、领域知识。这些知识需要与标注人员进行持续的沟通和交流,才能得到有效的积累,从而理解客户所做的事情。举个例子,对自动驾驶行业的数据采集,有开车经验的就会标注的比较好,只有通过专业的培训和知识体系掌握,才能确保大家理解得比较到位。

贾宇航将人工智能训练需要的数据服务分为三个阶段:互联网数据采集、众包数据服务、定制化数据采集服务。“这几个阶段可以理解为婴儿不同时期需要吃不同的奶粉”。早期客户对数据的精度要求其实没有那些高,可以不用选择定制化的数据服务模式。如果企业的产品马上要落地了,并且已经有了严格的迭代周期,那么就会用到定制化数据采集服务。

当然,并不是所有的企业都是这样,对数据采集和标注有诸多尝试,并需要高精度数据需求的更多的是行业的领导者或先驱者,通过做很多的尝试,用人工智能的方式颠覆已有交互模式,扩大收益减少成本。

在数据服务市场,云测数据目前属于第一梯队。

现在,云测数据重点关注四个行业:智能安防、智能驾驶、智能家居和智慧金融。安防领域,可以理解为对智慧城市中交通流量的把控,可以决定红绿灯长短时间,或者从安全的角度出发阻止打架斗殴,还有为防止老人小孩走丢,在半个小时内将他们的行动轨迹描画出来,以便进行追踪;驾驶包括自动驾驶和辅助驾驶。自动驾驶方面,比如滴滴出行正在研发的自动驾驶出租车,在未来可以替代司机的角色。辅助驾驶方面,很多汽车企业会做云交互、疲劳检测,通过摄像头等工具的搭建,完成以人为中心的数据采集;家居领域,原来主要是以手机作为入口,现在每一个电器都有可能成为入口。对应的会进行一些语音数据的采集,再将这些语音转为文字,并能让人工智能系统理解;金融方面主要分为两个部分,一是OCR票据相关的数据标注,比如转写等工作,二是金融客服机器人、RPA等领域。

在数据服务市场,云测数据目前属于第一梯队。贾宇航坦言并不担心竞争,数据服务行业的硬门槛是服务管理体系,做数据服务的企业员工比较多,管理不是一件容易事。另一方面,技术是积累,云测数据虽然不做算法,但是在技术投入上很大。云测数据的使命价值,是让企业拥有数据,构建核心竞争力。“我们的价值定义体现了对数据安全的考虑。我们在整个工具研发过程中,数据标注相关的服务者只有操作的权利,没有获取权力。”

一般的数据采集流程是这样的——对应的工具采集完成之后会存储到本地数据中心,确保这一过程没有人工获取数据的风险。标注人员使用的电脑都是没有USB接口的,使用内网连接,直接通过浏览器端打开平台进行数据标注,数据存放在服务器中,交付完成之后数据会销毁。

贾宇航表示,云测数据一直关注着AI的进化过程。“客户的需求会更加细分,对行业领域的沉淀要求也会更高,我们会对更多的细分领域做业务和知识的沉淀,满足他们的需求。”