在产业智能化加速发展的的今天,基于各项AI技术实现的人脸识别、智能音箱、无人售货、智能驾驶等应用层出不穷,不论是互联网企业还是传统产业,都纷纷拥抱人工智能技术进行产业升级。在势不可挡的智能化大潮前,为人工智能构建数据地基、协助技术实现落地支撑的数据采集标注服务,正在这一进程中扮演着至关重要的角色,成为行业加速发展的新引擎。
作为人工智能基石的数据,发挥出越来越重要的作用,影响着人工智能场景应用的最终效果。现阶段,在各个细分应用场景的需求下,人工智能对数据的还原度、准确度提出了更高要求。
从细分结构来看,随着AI技术的不断成熟,更多的场景和行业开始嵌入使用AI技术,比如教育、法律、智能驾驶、银行金融等,这些AI行业应用场景逐渐趋于长尾和碎片化,产生了大量细分专业化的数据需求。比如道路安防摄像头,摄像头中囊括行人、机动车、自行车数据,却唯独缺少行人跌倒数据;如在自动驾驶领域,监测系统需要采集驾驶员各种状态数据,但缺少疲劳状态的数据等等。
云测数据的场景化数据采集实践
这些数据采集需求相对复杂、聚焦,难度较大,对AI数据服务商的场景化采集能力提出了很高的要求。随着人工智能对长尾场景的数据需求进一步扩大,具有相关采集工具、资源、能力的数据采集标注服务商将拥有极大的竞争优势。为了进一步满足场景化数据的需求,数据采集标注头部企业云测数据首创了“数据场景实验室”,进行相应的场景化数据生产。
在数据标注行业,特定场景的数据在普通的场景下始终是可遇不可求的,比如马路上的摔倒场景,如果真的调取某一个特定道路摄像头的资料,符合“路人摔倒”要求的画面也许在1000分钟里都难以捕捉到一次,更不能满足各种角度、各个时段、不同年龄、着装、性别的AI模型学习要求。面对这种指向明确的需求,云测数据可以搭建特定的场景棚,邀请“演员”,模拟不同的形态进行采集;为了采集不同的情绪在面部五官上的表现,云测数据甚至还在横店建立了一个数据场景实验室,专门邀请横店具有面部表情表现力的群众演员,为企业录制精准的情绪,以满足需要识别情绪的场景。据了解,云测数据也是现在市面上唯一采用群演来做人工智能数据采集的数据服务商。
正如云测数据总经理贾宇航所言,云测数据的采标业务正是整个人工智能产业所迫切需要的,横店群演的采集只是场景化数据的一个缩影。根据企业数据需求,还原AI应用真实场景,这不仅需要深入理解需求,还需要快速构建场景。这背后,需要云测数据根据项目经验及实地调查来明确需求,此后再细化、优化需求,运用专业的软/硬件设备,以达到覆盖尽可能多的实际场景及边际场景的目的,保证采集数据契合算法模型,为人工智能提供高精度的采集数据,保证算法训练所需数据的纯净。
场景化数据采集能力是行业趋势
从AI应用迭代、用户体验完善的角度来看,AI应用需更贴合具体使用场景的数据进行迭代更新。《2020年中国AI数据服务行业研究报告》中指出,随着互联网技术发展,市场AI需求愈发明显,同时在经济、政策不断利好下,AI数据服务行业市场前景广阔。优秀的AI数据服务商作为人工智能产业上游的关键,必须要具备三种能力之一就是“对场景数据深度还原的采集能力”。
人工智能对数据提出的更高要求,展现了在人工智能产业化落地进程中,数据正在发挥的重要作用。场景化、高精度的数据和专业化、技术化的数据服务,将成为未来3-5年人工智能全速发展的重要突破口,加速人工智能产业化落地。