“如果非要用一句话来定义这个时代的“人工智能”和“数据”的关系,可以说是:数据是人工智能的核心要义,而“高质量、独立安全”的数据则是撬动世界第四次工业革命(人工智能浪潮)的关键所在。”
上个世纪五十年代,麦卡锡当时为达特茅斯会议命名了一个在那时看起来别出心裁的名字:人工智能夏季研讨会(Summer Research Project on Artificial Intelligence),由此“人工智能(ArtificialIntelligence)”这个概念开始走向世界。历经了半个多世纪的AI一直都不温不火,但近几年AI突然爆发,在人工智能大量边缘设备落地的同时,将其推上一个更为兴盛的阶段:围棋人工智能程序AlphaGo横扫棋坛,传统与文化相结合独具一格的“AI茶馆”,甚至还有腾讯去年在“AI+医疗”领域打造的“救命AI”——腾讯AI医疗产品的聚合。
AI迅速爆发的背后究竟靠的是什么?现下众多巨头企业、初创公司等纷纷入局人工智能领域,都在尝试寻找全新突破口。业内曾流传着这样一句话:得“数据”者,得“人工智能”,而能将“人工智能”玩的转的,便能称的上是撬动世界第四次工业革命的先锋了。
偏偏是“数据”扼住了AI命运的咽喉?
从发展意义来看,人工智能(AI)在不断的进步,并且随着这种进步势必会改变一大批产业的形态。此外,从另一方面看,人工智能技术的背后有三大支柱:算法、算力和数据,这三者相辅相成、相互制约,但其中数据是核心要义,只要有了大量优质精准的数据,再加上算法实现高效的机器运算、算力的推动,AI才能越走越远。“没有好的数据,人工智能将没有未来”已经成为业界共识。值得一提的是,这里有两个重要的点需要区分:一个是数据,另一个是好的数据:“高质、精准、安全”。云测数据贾宇航表示:“首先数据是人工智能底层逻辑中不可或缺的支撑要素,因为人工智能的本质就像人类要不断的通过训练来获取技能一样,AI的根基就是训练,需要经过大量数据进行训练,神经网络才能总结出规律,进而熟能生巧的应用到新样本上”。也就是说,数据是最基本的燃料,没有燃料,AI这艘火箭是不可能直冲云霄,而商业落地更是遥不可及的梦。从自动驾驶到AI聊天、服务机器人,从人脸识别到各类AI边缘落地化产品,数据是真正的“幕后英雄”,无“数据”不“AI”。
其次,要想经算法训练后获得的模型更加智能,仅“数据”远远不够的,这背后更多的是对数据的“高质、精准、安全”的要求。例如在训练的过程中,高质精准的数据扮演着“教科书”级别的重要角色。如果仅需要识别勺子,但在训练数据中勺子总和碗、筷子一起出现,那么AI系统可能会误入歧途,进入一种“瞎猜”的状态而产生混乱和误差,结果很可能会将碗或筷子识别成勺子。所以对于人工智能来说,虽然大量的训练数据固然很重要,但更重要的是数据的“高质精准”。再从另一方面看“高质精准的数据”对算法模型来讲究竟有多重要?现在人工智能处在产业落地前夕,可以说AI产品的精准数据训练直接影响落地产品的良品率;举个不恰当的例子,如果自动驾驶系统的训练数据的缺乏或不精准,则很可能在行驶过程中由于未正确识别物体数据直接导致人身伤亡,这些后果都是不堪设想的。此外,数据标注的价值不仅体现在物体识别上。当下人工智能整个行业都在往多模态的方向发展,比如以智能驾驶为例,基于传统的车外环境感知系统一般都采用摄像头做设计,以至于存在着测距效果差等缺陷,现在引入激光雷达后,在数据的提升上对应是既有图像又有3D点云的三维数据的耦合。
随着人工智能逐渐从学术走向产品化、落地化、市场化,企业对于场景数据的要求也越来越多维,所以引入更多维度的数据去完善AI产品落地前的模型,也是当下行业发展的趋势。
直击行业痛点,这样的“数据一把手”才更性感
传统的数据清洗标注工作呈现出一种“数据粗放型处理”的状况,从移动互联中大量获取公开、通用的数据,通过雇佣廉价的劳动力完成数据的清晰标注工作,“道路、天空、大树”大致标注粗糙勾选后,便全部投入应用到神经网络中。但随着人工智能发展至商业落地前夕,算法模型对高质量、高精度数据的需求极速提升,以往的通用数据集越来越不能满足AI企业的数据需要,人工智能落地越来越专注于小场景和专业领域。人工智能不再是漂浮在“空中的楼阁”,基于AI实际应用场景的数据服务,已成为人工智能落地的核心地基。贾宇航表示:“在这个行业中有一个‘garbage in garbage out’的理论,即如果标注完的数据精度达不到标准,那么训练出来的算法也是不精准的。”如今一味粗放的处理模式既不能满足逐渐商用的AI企业的数据需求,甚至还将影响技术本身的发展。面对这样的产业趋势,云测数据作为行业的典型代表,直击行业痛点:将“精准高质”“独立安全”作为业务发展的核心,并随着AI企业数据需求不断的演进。有刚性需求便会有实时供给,有痛点问题便就有解决方案。云测数据基于其自建的数据标注基地和场景实验室,根据AI企业数据需求,进行特定动作、表情和表情的捕捉,将精准的数据投入到流程化规范生产的数据标注环节中,最终输出精准高质的数据。解决特定场景化下的数据缺失、质量良莠不齐、安全性等行业问题,以帮助AI企业打造以高精度数据为核心的行业壁垒。场景实验室是云测数据布局高度定制化、多模态的AI数据服务的重要组成部分,以AI企业的具体算法模型的特定需求来定制化搭建采集场景,致力于覆盖尽可能多的实际场景及边际场景,从数据产生的源头把控数据质量。
自建标注基地是云测数据保证数据精准高质的又一强力保证。基地内的全职标注人员有利于协同化管理和快速响应企业数据需求。同时云测数据还基于不同场景对标注人员进行领域内的细分,接受固定领域的知识培训。得到高效的行业知识输入,在理解企业客户的需求上就能做到准确无误的输出。所以,AI的背后是数据,行业的幕后是云测数据——这样的“行业数据一把手”才着实性感。
数据安全成核心,行业规范亟需建立
目前云测数据基于自建的数据场景实验室和数据标注基地,服务领域已涉及智能驾驶、智能家居、智慧城市、智慧金融、新零售等领域,实时为领域内各个AI企业提供定制化的数据采集、数据标注服务,全方位支持文本、语音、图像、视频等各类型数据的处理。更重要的一条前置底线是,云测数据除了提供优质数据,更是把数据隐私安全做到了极致。从防火墙的设置、到内部信息系统的管护,乃至标准化的流程作业体系等,将一整套的安全防护和信息保护的机制,应用在数据标注生产的各环节。贾宇航告诉猎云网:“对于一个企业来讲,拥有了数据便就拥有了核心竞争力,数据安全一直都是我们极其重视的一点。首先我们要做到的,是数据绝不复用,第二就是保证数据隐私性。与所有数据采集的用户都签订数据授权协议,确保AI企业用于训练的数据合法合规。
”Testin云测CMO张鹏飞也强调“从整体看来,AI数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能‘良币驱除劣币’,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程”。人工智能的发展离不开数据的支撑,更离不开AI数据做“燃料”。如果非要用一句话来定义这个时代的“人工智能”和“数据”的关系,可以说是:数据是人工智能的核心要义,而“高质精准、独立安全”的数据,则是撬动世界第四次工业革命(人工智能浪潮)的关键所在。