以一抵百万，高质量数据让深度学习更聪明！-DOIT-数据产业媒体与服务平台

摘要

大名鼎鼎的横店影视城有着这么一群人。他们每天穿梭于各大剧组,换上威武的武士服和漂亮的古装,在满满的通告中获取一份相对稳定的收入。有时运气好了可以讲一两句台词,和大明星合个影,也能自豪地给家里人讲自己风光的一面。

如果你看过尔冬升导演的《我是路人甲》,你可能对这帮“群演”的故事不会陌生。

随着《甄嬛传》、《琅琊榜》和《庆余年》等热门剧集的影响,横店的势头也步步高升。然而,2015年随着限古令”的公布,每年来横店的剧组数量从几十个锐减至十几个。

以前一天可以跑三四个通告,现在可能两天才能拿到一个。

通告的减少,不少“群演”收入锐减,甚至开始做起了快递分拣、送外卖的兼职工作。而这其中,有这样一批“演员”,还能幸运的靠演技谋得一份生路。虽然这次,雇主不再是影视公司,而是和人工智能密切相关的AI数据企业。

被作为“自动驾驶”数据采集的这批群演们自称“车模”,在通过“数据测试”后,他们会被叫到几辆汽车前,进入规定车辆的驾驶位上做出转头、摇头和拿水杯等动作。半小时的采集工作,可以给他们相当于片场“半个工”(半个工作日)的薪水。

这些群演们可能自己都意识不到,自己在做的事情正在为这个智能时代产生巨大的价值。

人工智能时代,数据是和算法、算力一样必不可少的生产力。我们无时无刻都在产生数据,但“数量庞大“这一标准已远不能满足这个时代的需要。

就如纯度高的黄金需要杂质少的原材料,像上面这样找专业人士获取特定的、高质量的AI数据的需求,已经成为一种常态。

AI数据的生产模式已经从小作坊,转向更专业的生产机构。入局这一赛道的,除了BAT、京东等需要满足自身数据需求的大厂,也有越来越多专业化的超高质量数据服务平台。

那么,各大人工智能厂商不惜重金、趋之若鹜的AI数据,为什么这么重要呢?

”更高更快更强“:助推算法精准度,高质量数据必不可少

如果把人工智能研究比作一场奥运比赛,那么提高深度学习模型的契合度、努力刷新前人的记录,是研究者们追求的共同目标。对深度学习来说,算法提供了整体的框架,算力提供着训练的动能,而没有高质量数据,再怎么萃取也不会有高质量的精华。

行业中,开发人员会戏称训练深度学习模型的过程为“炼丹”。想要炼出太上老君的仙丹,光有一口好炉子(算法)和充足的火力(算力)还远远不够,纯度高的原材料(数据)万万不可或缺。而越是好炉子,对原材料的精细度越是挑剔。

近年来,大数据的井喷逐渐推动着算法和算力的发展。有了过硬的算法和算力,相较于数量上的竞赛,各大公司争先恐后地想搞出些“真刀真枪”来进行比拼。在这样的背景下,为了提升AI的准确性,向产品落地的方向更进一步,企业们已把眼光从之前对数据“数量”的要求转向对“质量”的要求。

作为AI数据服务行业内头部代表企业,云测数据总经理贾宇航用简单的实例为我们解释了自动驾驶场景下精准数据的重要性,“公司对数据精度的高要求,是由于很多算法落地的过程之中,AI需要达到这样的精度,才能够去做到一个相应的运转。“

“拿自动驾驶为例,如果你的训练数据中的车都是白车,实际情况中突然出现红车,基于训练数据总结出的规律,可能AI就不认为这是一辆汽车。”

在开头描述的横店群演们的“车模”新工作,就是云测数据为自动驾驶客户提供的基于真实场景的数据采集服务。

复杂的场景中,高质量数据拒绝AI的“错误”行为

人工智能正在进入更加复杂的应用领域,除了对数据精准度的要求,现实场景的复杂度也成为人工智能落地前的痛点,两者结合对AI数据提出了更高的要求。云测数据所提供的服务正是解决了当下数据需求痛点。

微软的沈向洋博士曾经在清华的就职演讲中,用这样一个案例讲述了在图片识别领域,高质量AI数据的重要性。

在一个认出“哈士奇狗”的训练任务中,AI在六张图片中鉴别对了其中五张,但进一步观察判断的依据,AI其实是在用“图片中有没有雪”这一特征进行判断。很显然,由这样的数据训练出来的AI不是一个“哈士奇分类器”,而变成了一个“场景分类器”。

AI之所以会在这里“错误”,是因为算法会让它在训练过程中,确保大部分训练数据的准确率够高。大部分训练数据的准确率高了,整体的准确率就有保证。想要做到这一点,提取这大部分数据中共有的关键特征,再根据数据中有无这些特征进行判断就可以了。在上面鉴别哈士奇图片的例子中,图片中“有没有雪”就是这一关键特征,而高质量(准确)的数据在这里就显得十分重要。

采访中,云测数据也向我们指出了复杂的场景带来的挑战。“近年来,因为使用的场景非常复杂,AI公司对数据的数据标注的精度和场景多样性的要求越来越高。某些人工智能应用可能换一种情景就行不通,比如语音识别,可能在普通话的情况识别率很高,但换了方言就行不通。所以说,当你训练数据的覆盖场景越多、数据标注的的精准度越高,实际上AI总结出来的规律也就越正确。”贾宇航说道。

为了保证AI总结出正确的规律,训练数据的多样性是一个关键。春夏秋冬的哈士奇,全身半身的哈士奇,只露一个耳朵的哈士奇,丰富的数据是避免AI错误的一剂良药。

贾宇航介绍道:“举个例子说,想要做一个全球适用的人脸识别系统,黑、白、黄,各肤色的数据是必不可少的,甚至在每种肤色下面还要细分种类。同时各个年龄层面也都要考虑。“

通过这样丰富的数据,或者说,高质量的数据,我们训练出来的AI就会更有可信度,落地的产品也才会更加可靠。

以一敌百万:随机数据让算法更聪明!

刚刚提到的方言识别是语音助手面对的挑战之一,除此之外,外部噪音对人声的影响也是语音识别行业一个亟待解决的问题。

借用吴恩达深度学习课程中的例子,训练车内的语音AI时,我们需要人们在「车内讲话」的音源。这是因为由于行驶时的噪音的存在,我们在车中讲话的声音和平常是不同的。

为了提升模型识别的精准度,我们需要为算法搜集定制化的车内噪声数据。传统的实验室做法是这样的:为了制作出车中的人声,将一段搜索到的白噪音与一万条人声数据分别拼接。看上去我们获得了一万条车中人声的数据,但通过这样的操作得出的模型,在现实场景中往往很快“扑街”。

为什么呢?这里就涉及到了数据搜集的“随机性”问题。

我们对数据多样性的要求,其实和统计学中随机性这一概念息息相关。想要涵盖各年龄层,各方言层的数据,其实是给样本注入随机性–为了让样本更能代表整体。刚刚提到的合成人声,数据量看起来很多,但实际情况的车内人声变化多端,我们合成的一万条数据看似很多,但很可能并不具有现实代表性。

大家都知道随机性很好,但它究竟好到什么程度?让我们回到统计学的基本概念中来看看。

假设我们想要估计全国人民使用某电商品牌的比例,称这个数字为p。我们可以使用互联网上现成的观测性大数据(observational data)。但在这个数据集中,一个人被抽到的概率和这个人使用电商的概率是相关的(称这个相关性为r,r越小数据越随机)。

比较之下,我们还可以采取简单随机抽样(SRS, simple random sample),避免相关性的问题。

假设我们在简单随机抽样中抽取了n个样本,而使用的观测性大数据中包含的全国人口比例为f。我们用常用的MSE(Mean Squared Error,平均误差)来衡量误差,在这两种情况下,MSE分别是:

上面的公式说明了什么?

如果我们乐观地假设r=0.1,那么100个随机样本产生的误差和一半人口(f=0.5, 7000万人)的观测数据产生的误差一样多。

如果我们有能力采集10000个随机样本(中国人口的十万分之七),则它和涵盖99%的中国人口(1.386亿)的观测数据会产生一样大的误差!

但在行业落地中,获取更符合现实分布的随机数据并不是一件容易的事情。

贾宇航告诉我们,“声纹识别上,我们需要考虑到方言的语系语种,以及性别层面和年龄层面。“

就拿方言数据来说,云测数据在华东、华南、华北都设有自己的实验室,从地理位置上保证八大方言体系的数据都有被涵盖。而在收集之前,云测数据还会进行认证和把关,确保录入人员讲的方言符合标准。

有些公司需要底噪比较高的环境,比如之前提到的车内语音,云测数据也会使用相应的设备去调制这样的场景,确保数据的采集达到标准。

贾宇航还给我们介绍道,也有一些对夸张表情进行情绪识别的数据需求。比如在自动驾驶中,夸张的表情很可能表示驾驶员遇到了紧急情况。这些是并不常见但对于提升AI的安全性至关重要的数据。换句话说,是使自动驾驶安全落地的一个关键突破口。

为了收集这样的表情数据,云测数据想到的是在演艺界打开渠道,而开篇提到的横店影视城群演就自然成为了高质量的资源。在表情数据收集的过程中,云测数据和专业人士合作,采取了人员筛选、情绪引导、数据采集的三步法。类似于演员的面试,项目负责人先筛选出表演能力强的演员,再对筛选下来的人员进行情绪引导,最后采集表情数据,来确保在数据采集初期的高质量获取,以达到客户需要的水平。

除了对人的要求,数据采集的场景化还包括对光源的具体模拟。云测数据告诉我们,场景化的模拟包括不同光照条件、不同光照角度下以及遮挡物(如玻璃)等细节要求。某个项目中单是光源条件就分成了室内和室外,强光、逆光、倒光等一共24种光照条件,不仅如此,玻璃反光度、模特脸部遮挡比例值等都有严格的要求。在这个项目中,玻璃的反光程度不仅与玻璃的材质厚度有关,也跟光源大小、光源与玻璃之间的角度和距离等一系列变量有关。云测数据最终搭建了一个将近3000平米的场景圆满完成了此次项目。

数据智能的未来:专业数据服务机构和人工智能携手共进

人工智能的产品正如雨后春笋一样不断冒出,但AI系统的质量仍然制约着一些应用的落地。即使系统已经落地,人们对于精细度的打磨也在产生新的要求。

“我们希望和客户一起成长,更加深化合作方向。”

贾宇航对于数据行业和人工智能间关系如此展望,”比如说语音助手原来只是做到对语句的识别,但随着时代的发展,人们对于精细度的进一步要求,我们同时也要做到情绪上的识别。同一句话在用不同的语气讲的时候,我们希望语音助手也可以用相对应的语气来回应,而不是像现在这样,每一句话都是一个语调。大家肯定希望压力大的时候,语音助手可以用温柔的语气送上问候。我们希望语音助手也可以更加拟人化,在这个层面上我们会去进一步地深耕,利用场景的定制和设备的专业性进行数据服务方案的进一步调优。”

为了进一步满足AI行业的需求,云测数据也在数据标注的环节不断拓展。以NLP为例,对一个语句的“主/谓/宾“或是”时间/地点/人物”式的划分早已不能满足应用场景的细化要求。用人为的标签给平淡的语句加入适当的背景含义,算法才能更加适应场景。

想要达到高标准的标注水平,需要对员工的专业培训,甚至在某些领域,比如医疗图像识别,AI数据标注必须由领域的专家来完成。在不同的领域,建立起AI数据生产的标准流程,是数据行业当下将要面临的机遇和挑战。

对于AI行业当下发展非常敏感的数据隐私问题,云测数据也给出了自己的解决方案:“让拥有数据成为企业的核心竞争壁垒”,通过数据隔离、质量保障等一系列保护数据安全的方法,确保企业数据安全的情况下,持续为数据采集和标注构建和优化自己的方案。

另一方面,贾宇航也希望云测数据可以和更多的行业进行深度合作。“除了现在的智能驾驶、智能家居、智能安防、智慧金融、新零售等领域,我们也在往更多的行业去拓展。比如说文娱和教育,实际上我们现在都有涉及,并和这些行业一起进步。我们希望把我们的AI数据服务带到新的领域,在新的领域解决新的挑战,帮助更多的企业实现产品智能化。”

以一抵百万，高质量数据让深度学习更聪明！

songjy

相关推荐

近期文章

热门标签