AI巨头背后的企业,云测数据缘何成为行业“硬核英雄”

没有好的数据,AI就没有未来,已经成为行业共识。人工智能行业与数据标注行业实际上是一个水涨船高的关系,人工智能行业越发达,数据标注行业的商业机会越大,这个道理是如此明显,未来AI数据行业不可估量。

12月8日,由国家发改委国际合作中心、中关村管委会和大兴区政府指导的2019T-EDGE全球创新大会在北京召开。在当天最重磅的“2019EDGE Awards全球创新评选”上,共有九家企业获得“2019年度科技企业”奖,其中大部分是像华为、顺丰、戴森等这样在C端具有知名度的行业巨头公司,然而其中却有一家深耕企业服务的公司—Testin云测,值得我们好好聊一聊。

在科技行业内,Testin云测早已是大家的“老熟人”。2011年创立之时,Testin云测正赶上手机行业从功能机向智能手机转型的关键时期,App开发是行业最大风口,Testin云测应时而生,开创了测试行业向云测试行业的转变,由此积累起大量客户、建立了行业品牌地位,成为垂直领域的独角兽。

然而这次Testin云测获奖,却应该不是因为它的测试业务,而是近两年异军突起的AI数据标注业务。

事实上,EDGE Awards此项年度科技企业奖颁奖标准是“2019年不断创新并突破自己,在科技领域拥有核心竞争能力,为社会做出杰出贡献的企业”,像华为获奖,是因为它对外发布了自研操作系统鸿蒙OS,猎豹移动是因为其在智能服务机器人方向布局。而Testin云测也是如此,当年App兴起时,Tesitn云测以云测试抢占风口,获得了成功,现在人工智能时代大潮袭来,Testin云测又以人工智能三要素之一的数据为抓手,成立AI数据标注业务品牌——云测数据,再次成为行业Top1。

众所周知,人工智能三要素是数据、算力和算法,其中数据居于首位,历经多个发展阶段后,数据正在人工智能进化中发挥着越来越重要的作用,目前人工智能算法的训练主要依靠大量数据来完成,而未来定制化、场景化的数据也将成为为人工智能商业化落地的关键,然而随着AI企业对获得特定场景数据的需求越来越大,单靠自身收集既不效率也不积极,这就使得专业的AI数据服务提供商云测数据应运而生。

从这个角度而言,如果说数据对于算法就像汽油之于发动机,那么Testin云测这样的企业就扮演了一个AI领域“两桶油”的角色,为中国人工智能产业提供高质数据燃料。

就像中石化和中石油一样,它们不但负责原油的开采,更负责油品的冶炼,云测数据通过自建数据场景实验室和数据标注基地为智能驾驶、智能家居、智慧城市、智慧金融、新零售等领域提供定制化的数据标注、数据采集服务,全方位支持文本、语音、图像、视频等各类型数据的处理,成功帮助AI企业或AI部门构建数据核心壁垒,为中国的AI产业持续提供动力,这才应该是Testin云测获得“2019年度科技企业”的最重要原因。

没有好的数据,AI就没有未来

在云测数据做大之前,数据标注一直被行业里视为一个隐藏在人工智能领域里的劳动密集型产业。

何谓数据标注?简单说就是对各种类型的数据包括文本、图片、语音、视频等完成分类、标框、注释、标记并打上说明其某种属性的标签。人工智能需要海量数据,但海量数据并不等同于可以供机器学习的训练数据,符合质量的训练数据需要经过数据标注。

数据标注成为一种产业始于2005年,当时以亚马逊的Mturk为代表的一种新的数据采集服务——众包模式开始出现,其被大量的硅谷公司采用于训练AI算法,这种众包模式后来也流传到国内。

数据标注的众包模式从一开始就是一个劳动密集型产业,因为它基本上是靠人工来实现,也就是由数据标注员完成,其技术门槛实际上很低,这使得中国河北、河南、山东、山西等地区出现了很多数据标注小作坊,数据标注产业甚至为这些地区的小城镇和农村提供了大量就业机会。

大量劳动密集型的数据标注工厂在AI产业爆发初期,为中国人工智能企业的崛起做出了巨大的贡献。然而,就像儿童成长不同阶段需要不同的营养摄入一样,随着人工智能产业的发展与进化,AI企业在落地过程中发现,所需要的数据维度和复杂度正变得越来越高,数据服务的众包模式以及通用数据集已经难以满足AI企业的数据需求。这个时候,定制化的数据服务模式就出现了。

就像云测数据总经理所说:如果以前的数据标注是为AI企业提供饲料,那么现在云测数据的业务目标是要充当婴儿的奶粉,运动员的优质蛋白,以帮助AI企业加速产业化进程。

于是,云测数据开始在华东、华北、华南等地建设数据交付中心和数据采集基地,致力于为 AI 企业提供全流程一体化的高精、高质数据服务解决方案,至今,已经为国内外数百家企业提供了AI数据服务。

需要值得一提的是,云测数据进军数据标注领域并非一拍脑袋的决策,而是有几大原因在背后推动。

首先,数据标注服务也是从属于数据服务这一大市场之下,而云测数据具有这方面的资源禀赋优势,或者说叫基因。过去九年间,作为市场上重要的独立第三方的企业服务平台, Testin云测已经在行业积累了广泛的品牌影响力、技术实力及流程化管理能力,旗下AI数据服务品牌云测数据并不是裸身登场,而是挟势而来。

其次是这个市场足够大。数据标注服务既属于数据服务市场,又属于人工智能市场。根据预估,明年中国人工智能核心产业规模将超过1500亿元,带动相关产业规模超过1万亿元,如果放诸全世界则更大。

按照相关人士的估算,一个500万的AI项目会有10%的资金用于数据的采集和标记。由此可以推算出,到了2020年,数据标注行业的市场规模将能够达到150亿。

最后,就是现有数据标注行业的良莠不齐,为云测数据这样的参与者提供了通过差异化竞争胜出的机会。

前文已经讲到,随着AI技术的发展,AI技术公司对数据的要求也越来越高。这种高要求体现在两个方面,一是对数据质量本身要求越来越高,这包括数据的精准性、独立性和安全性。因为算法的精度与数据的质量有着直接关系,数据的数量和质量会成为产品落地的瓶颈。

二是对数据的定制化和场景化要求也越来越高。中国现在有上千家AI公司,它们都是生存在不同的商业场景之下,且人工智能正在积极拥抱各行各业,相对应的算法模型就需要更多还原真实场景的数据需求,小数据的搜集和标注已经成为人工智能产业化落地的桎梏。

当现有数据标注服务的众包模式以及通用数据集难以满足所有数据的需求时,云测数据在数据标注领域的差异化竞争机会就来了。

简而言之, “没有好的数据,AI就没有未来”,云测数据在数据标注领域的商业机会,归根到底还是因为AI企业对“好的数据”需求越来越强烈,它们需要有一家提供“好数据”的龙头企业出现。

高质、精准、安全:为数据正身

在对市场机会考虑清楚之后,Testin云测正式推出了其AI数据服务品牌——云测数据。

几年时间,云测数据已经成长为市场头部品牌,直到这次2019年底为Testin云测在EDGE Awards全球创新评选上拿下“2019年度科技企业”。

云测数据是怎么做到的?所谓大道至简,其实说来并不复杂,核心就是针对人工智能产业落地呼唤“更好数据”的最新需求变化有的放矢,重建和升级了原有的数据标注产业模式。

首先,通过在人员、软硬件设施等方面的大投入提高了行业的进入门槛。为了产出更高质量的数据,云测数据在华东、华北、华南等地都建设了数据交付中心和数据采集基地,并实现了一整套标准化作业流转。在数据采集基地,其标注和质检人员、项目经理每天面对面沟通,确保每个人能够理解,并掌握标注有关技术,技能和经验能够得到持续的提升。

目前,云测数据已经拥有近千人的数据标注团队,在规模以及质量上都处在行业前列。正式上岗前,他们都要经过行业知识、平台工具使用、基地规范制度等内容的团队培训流程。

其次,重建了数据标注行业的安全生产流程,也就是要保证绝对的数据安全。这里数据安全的意思不单是指数据不被污染,更是指不被泄露,不侵犯用户隐私。因为对AI企业来说,数据就是其核心壁垒的一部分,AI企业将数据标注服务交给谁,就意味着谁的高度信任。这就使得数据安全成为一种内在竞争优势。

谁更安全谁就更容易争得客户。云测数据基于此除了所有数据采集的用户都签订数据授权协议,保证AI企业用于训练的数据合法合规之外,云测数据内部还设定了数据隔离、质量保障等一系列保护数据安全的流程,以在确保企业数据安全的情况下,持续为数据采集和数据标注构建和优化自己的方案。

第三,主打场景定制化AI数据服务,实现广泛业务领域覆盖。针对AI企业对场景化数据的巨大需求,从创立开始,云测数据就把为客户提供定制化场景数据采集和标注服务作为业务重点,到今天为止,云测数据已经覆盖了智能驾驶、智慧城市、智能家居、智慧金融、零售等几乎所有AI市场的重要领域。通过场景实验室的建立,实现场景定制化AI数据服务以帮助企业完善产品发布之前需要的训练数据。

就像Testin云测CMO张鹏飞强调的那样“从整体看来,AI数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能‘良币驱除劣币’,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程”。

不可阻挡的大势所趋

事实上,所有的这一切,只为了一个目的:向AI企业提供更高质、更精准、更安全的数据。

对于习惯成长于数据采集粗放式经营时期的企业来说,云测数据就像一个特立独行者,因为它的出现推高了行业整体质量水平线,压缩了水平线之下企业的生存空间。

但这却是不可阻挡的大势所趋,这样的行业颠覆,不是云测数据来做,也必定会有其他企业来做,因为客户需求就摆在那里。

回顾数据服务行业的发展历程,会发现实际上经过了三个阶段,最初是实验室阶段或步行阶段,这一阶段AI企业对数据的要求还比较初级,甚至很多数据几乎连标注都不用就可以被拿来用;第二个阶段是所谓劳动密集型阶段或马车阶段,众包成为主要模式;今天则已经进入第三个阶段,也就是数据服务的场景化和精细化时代,人工智能从马车速度前行,到起飞前夜,从吃饲料到要喝航空汽油,这就使得云测数据这样的高端数据供应商成为市场刚需。

没有好的数据,AI就没有未来,已经成为行业共识。人工智能行业与数据标注行业实际上是一个水涨船高的关系,人工智能行业越发达,数据标注行业的商业机会越大,这个道理是如此明显,未来AI数据行业不可估量。

但这对云测数据来说也并不是坏事,因为这个市场太大了,云测数据可以成为头部玩家,更重要的是,因为数据这一关键词,使得数据标注行业不只面对市场和商业化,同时意味着社会价值,还承担着社会责任,只有更多企业一起用力,才能更快的净化行业乱象,建立起行业规范,整个行业才能做大做强。