数字化时代,以数据为滥觞(发端)打开新技术的大门,人工智能就是其中之一,AI概念最早始于1956年,近年来以人机对战为契机引发大众关注。2017年,国务院正式印发《新一代人工智能发展规划》,至此发展人工智能上升为国家级战略。
人工智能的升级始终围绕数据、算力和算法三条主线进行毋庸置疑。其中,相比科技企业机构大佬们加持的算法和算力研究与关注度,AI数据服务通常被视为劳动密集型产品,市场发展起步较晚。随着AI融入我们的工作与生活,带动AI数据服务的新市场形态逐渐显现。
而从海量数据变成AI学习的有效素材的过程里,数据采集标注的专业性、数据的隐私安全性及数据质量的精确度成为当前体现AI数据服务市场的主要价值。
现在虽然我们有自动驾驶、人脸识别、语音助手…但实际上,自动驾驶还在路上,人脸可识别,但你的年龄标记可能是40岁+,语音助手能陪你聊天但有时候搞不清你在说什么……从人工智能“聪明”到“智慧”的距离,就需要高质量AI数据所来填补。
数据质量决定AI水平的高低
数据不能直接变成高质量AI数据,需要通过一定的处理后才能转化为人工智能所用的训练数据。第一步流程数据采集,通过不同维度的硬件传感器,将现实场景转换为数据,既数字化转换过程;第二步进行数据清洗,并非所有数据都是有价值数据,通过人工或机器辅助筛选的方式,再基于特定规则,对数据进行筛选的过程。
第三步是数据标注,人工智能是通过大批量基于特定标注规则后学习的方法论,因此需要人工将像素、语音信号、文本内容,转换为机器能理解、能看懂的AI数据内容,才可以被机器习得识别处理。对应AI产品质量要求的背后是算法的精度,而精度的背后是数据质量要求,因此数据标注的精确度将直接影响AI产品的质量。相应地,人工智能也有了水平高下之论。
如今,行业的数据标注精度平均水平在95%左右。近日,在2020中国国际服务贸易交易会上,数据标注行业头部企业云测数据进行了“无数据 不AI云测数据服务成果发布”,首次对外发布——2020年云测数据项目最高交付精准度达到99.99%,是目前数据标注领域可达到的最高服务标准,
云测数据总经理贾宇航在会上表示,云测数据发布的99.99%的最高交付精度,也是向外传递数据标注高质量发展信心。
云测数据此次服务标准的发布也成为AI数据服务行业的一个新起点,并进一步刷新了AI产品的能力水平。
AI数据服务行业正在细化和创新
数据标注此前被视为劳动密集型产品,但随着人工智能、5G、物联网、云计算等新技术的不断催化,数据服务行业不断细化,不同行业应用场景的创新需求。数据标注开始要求面向不同行业具备一定的技术专业性,且符合AI产品落地的不同场景需求,还要具有一定行业背景和常识的专业型人才。
当然,企业可以自主进行数据标注和模型训练。但数据标注环节复杂,成本投入高且培养专业型人才需要时间,还要注意避免人员的规模流动性。
云测数据作为头部企业深耕AI数据服务行业,其数据标注的流程体系相对完善,数据标注环节实现云化再反复简化流程,旨在达到数据精度要求的前提下,尽可能提升效率。并通过基于规则的机器筛查方式,在人工校验流程前根据所标注内容要求引入相关查错规则,这种数字化辅助直接提升了数据精准度。
此外,在数据隐私安全方面,云测数据设置了一系列严格措施。其中一条核心原则是数据绝不复用,当数据合格交付后从不留底;其二,所有和云测数据进行数据采集的用户都会签订数据授权协议,从来源上确保企业用于训练的数据合法合规;同时,云测数据内部还设定了数据隔离、质量保障等一系列数据安全流程和技术。
总结
我们都知道,人工智能的奇妙之处在于,当我们以为它只能是科幻片时,偏偏就变成了现实纪录片。作为人工智能的“源头”,AI数据服务将发挥越来越重要的影响。 行业最高精准度的AI数据标准的诞生,也昭示AI领域的爆发式发展即将到来。未来将会有更多企业为提升自身的竞争力,追求最新技术,优先创新AI应用场景,高质量高精准度的AI数据,将成为人工智能新一轮的发展的有力支撑。