云测数据:AI商业落地进行时,数据成核心影响因素

“我所见过的事物,你们人类绝对无法置信。”

30多年前,电影《银翼杀手》的AI复制人罗伊意味深长的说出这句经典台词,影响了一代人。

30多年过去了,《银翼杀手》中所畅想的AI应用,比如智能汽车、高清视频通话、智能家居、面部识别等等技术,一个个正在成为现实。我们终于看到了人工智能的诸多落地应用,AI人罗伊所见过的事物,在我们这个时代“因为相信,所以看见”。

时至今日,AI与各行各业的结合深入肌理,已经从以往的锦上添花变成了如今的“标配品”。中国所有的大型企业,不管是传统巨头还是科技企业,都已经开始应用AI降本增效,高效运转。

那么,AI所驱动的各类应用和服务,为什么能够高效的落地应用?在我看来就是因为有一些我们消费者无法感知的“幕后英雄”,输出各自的能力,赋能产业升级,进而加速服务落地。

很多朋友都知道,最近1个月以来,我密集的做了大量AI商业化情况的选题。目前大家的目光都聚焦在算法或算力上,但对AI三要素的“数据”却还不甚了解。所以当我提出想要了解人工智能背后的故事时,有人推荐我去找云测数据聊聊,因为目前国内大部分人工智能企业都选择了云测数据来提供AI数据服务,包括热门的智能驾驶、金融、智慧城市等领域。

于是乎,2019年12月的第一个周一,我从亦庄出发赶赴酒仙桥,拜访Testin云测,和云测数据总经理贾宇航畅聊一下午,深刻的感受到数据标注这件“幕后工作”,对AI产业化落地的重要性,可以说数据是否精准决定了AI商业化落地应用的最终效果,甚至说没有好的数据,人工智能就没有未来。

今天,我就结合我对行业的一些理解观察,以及当天沟通探讨的一些感悟,聊聊我对AI数据服务的一些新的看法。

AI产业背后的“同行者”:为什么是云测数据?

Testin云测旗下的业务品牌“云测数据”专攻于为AI提供定制化数据服务,虽然看起来是一项比较新的业务,但秉承Testin云测9年以来在企业服务领域的深耕与实践,云测数据无论是技术能力的先进性、流程化管理能力、还是对AI企业数据需求的洞察,都表现出来足够的专业性。甚至在中国科学院《互联网周刊》举行的《2019新型企业论坛》上,也把2019最佳人工智能服务平台,颁给了云测数据的“AI数据标注”服务平台。

云测数据是做什么的?通俗的来讲,云测数据是AI产业背后的“同行者”,所做的都是难度大且重要、又最隐秘的工作,它承担着AI产业落地“最后一公里”最重要的环节——为人工智能提供“数据养料”。简单来说,如果没有云测数据这种提供AI数据标注的公司,AI企业要想精准、高效的落地各类面向消费者的业务,都是空谈。

由此,我们可以探讨一个话题“数据赋能AI?那么谁来赋能数据”解答这个问题,我们需要先回顾下人工智能三个要素,分别是“数据、算法、算力”。在这其中,“数据”作为基础中的基础,至关重要。如同人类成长需要不断进食一样,AI的进化也需要数据的不断喂养,精准的数据如同优质的食物,是AI健康正确发展的先决基础。

那么,数据为什么那么重要?再打个比方,就像金庸小说《天龙八部》的聚贤庄大战一样,乔峰和少林高僧用的都是基础的太祖长拳(同样的算法),施展的内力也差不多(算力差不多),但实战后乔峰以明显的优势战胜少林高僧,就是因为乔峰拥有海量的战斗经验(各种维度的数据),能给针对性的进行招式的化解。

很多人会感兴趣一个话题“国内做AI数据标注和采集服务的企业其实有不少,有众包模式的服务平台也有综合的AI服务提供商,同时还有输出标准数据产品的创业型公司等等。那么云测数据相比这些企业,有哪些区别以及优势呢?”

在我看来,云测数据除了继承了公司的技术能力、流程化管理能力、独立第三方行业角色外等历史积累之外,它更是国内为数不多的把数据标注和采集做成规模产业的品牌。举个简单的例子,为了节约成本,许多平台会通过服务分包的方式,将承接的各类项目分发给平台的注册用户,这些提供数据的参与者并非全职员工。而云测数据,自主打造了还原AI真实场景的“场景实验室”,和自建的数据标注基地,打造了一支全职且专业的定制化采集和高质量的标注队伍(已达千人左右规模),帮助人工智能企业获取更多优质的特定场景数据,持续为AI训练、优化提供安全可靠、精准高质的数据服务。

打破零和博弈 数据标注安全和高质成首位

AI数据服务这两年在国内蓬勃发展。然而当AI和数据同时出现,总会引发业界关于数据隐私和个人信息安全的担忧。比如近期央视报道,通过转转平台可以10元钱购买5000张“人脸”照片,这条报道引发了广泛热议。

似乎AI数据和用户隐私保护之间是一种零和博弈的关系,既想要便捷高质的应用数据,要想保护好数据,似乎不可能。

那么,数据标注如何兼顾安全和便捷,又能精准的应用,我们应该确立一个原则,那就是“发展和矛盾”问题的一般原则:即我们不能因为近年频繁的数据安全问题而因噎废食,放弃了对数据的应用,走向封闭;我们也不能因为单纯的看到数据应用带来的前景,而无节制的对数据进行滥用,带来数据危机。

云测数据一直强调:“如果没有好的数据,人工智能没有未来”。而这里的数据特指那些质量高、安全性强的AI数据。

前文提到,云测数据自建的标注基地和专职团队,除了保证标注数据的质量和效率,更极大地提高了数据的隐私安全性。实际上以APP测试起家的Testin云测本来就拥有一整套的安全防护和信息保护的机制,并且已经应用在数据标注生产的各环节。

从防火墙的设置,以及内部信息系统的管护(比如操作人员进入基地大门需要指纹刷卡,且基地中也分安全等级、全方位摄像监控、数据交付后清毁数据不留底等)乃至标准化的流程作业体系,构建DPOR安全标准等。

如此,云测数据通过项目质量风险评估、过程质量控制、质量审核、质量验收等流程,得以输出高质量的数据作业,保障了服务精准、安全、及时的送到给客户。至于用户端的隐私防护,云测数据也以“不作恶”作为前置底线,和所有提供数据采集的用户都签订了授权协议,明确了数据采集和使用的范畴。

Testin云测CMO张鹏飞也强调“不难看出,这一套从安全到隐私的防护体系下来,无疑会加重运营成本。但从我们行业大局发展来看,只有以这种负责的态度来执行工作,我们的行业才能‘良币驱除劣币’,真正有竞争力的企业才能长久的生存下来”。

AI数据标注的三大趋势:专业化、场景化、规模化

数据标注是AI服务体系中最重要的版块,现在行业呈现出了欣欣向荣的发展态势。然而,纵观整个产业互联网发展态势,行业的大爆发也才刚刚开始,仍然有很多需要完善的地方,有很多新的机会层出不穷。

那么,AI数据标注的未来趋势何在?在我看来主要是三个方面,分别是专业化、场景化、规模化。

我们先来聊专业化。之所以要探讨这个维度,是因为据我观察,AI数据标注服务行业,虽然名为“AI”,但所开展的数据标注和采集是一个人力活,而非脑力活,如同富士康,比拼的还是流程化管理能力和“人海战术”。透过智联招聘这种平台,我们也能看到,AI采集和标注的相关从业人员薪资待遇也不高,并非一个高技术的工种。

关于这种现状,云测数据贾宇航在和我探讨时,坚信数据标注专业化的趋势在加强,行业需要更有经验的人。以数据标注为例,之前的2D标注,现在升级到了现在的3D多维标注,数据标注门槛越来越高,对人才的要求也越来越高。对技术的行业壁垒更在逐步提高。行业需求升级,必然倒逼供给升级,这是再简单不过的道理。

然后来探讨场景化。今天业界基本上已经达成一个共识:人工智能是用来应用的,不是像早前一样炫技的。人工智能的应用离不开场景,缺乏场景的服务是无法应用的。

不管是云测数据也好,还是其他企业也好,都必须立足场景、立足客户需求,满足客户在不同场景下的需求,才能真正意义上取得未来的先机,让AI由技术服务,变成可以量化、可以最终应用到具体消费环节的产品。所以,我们看到云测数据重点发力的智能驾驶、智能家居、智慧城市、智慧金融等领域,都是贴合我们消费和产业实际需求的。

最后来谈谈规模化。前不久中共中央国务院下发了《推进贸易高质量发展的指导意见》,特别提到构建开放、协同、高效的共性技术研发平台,强化制造业创新对贸易的支撑作用。推动互联网、物联网、大数据、人工智能、区块链与贸易有机融合,加快培育新动能。

这个文件的下发,振奋热心,人工智能等技术与高质量贸易的结合,比如带动全新的产业机会,挖掘更多的产业潜力,会鼓舞更多行业的企业来应用人工智能,提升效率,优化动能。那么,这些需求的出现,就会进一步加速人工智能以及相关产业的规模化发展,进而促进单位成本降低,提高服务效能。这对于我们相关产业链上的服务企业来说,无疑是重大利好。