计算机视觉产业落地的“护城河”,场景化 AI数据的挑战与未来

2020年5月11日,云测数据总经理贾宇航作客智东西公开课,为计算机视觉和人工智能相关从业者带来《CV模型对训练数据的要求与实现》专题课程,分享了CV(即:计算机视觉)应用落地中的数据挑战、人工智能数据的核心构成与处理方法、数据选择标准及如何利用智能标注平台提升数据标注质量与效率等内容干货。

计算机视觉是深度学习中最热门的研究领域,也是人工智能最受关注的落地方向之一。随着图像分类、对象检测、目标跟踪、语义分割、实例分割这五大计算机视觉关键技术的不断发展,CV应用场景愈发的细分化、专业化,相应的CV模型也在逐渐专注于特定的场景,这对于训练数据的要求提出了更高的标准。

计算机视觉应用落地面临的数据挑战

贾宇航在公开课中讲到:“当下阶段,训练数据要更加贴合多样的使用场景、更加注重数据精准度、更加要求专业技能知识,同时还要保证其隐私安全等要求。”随着计算机视觉的发展,尤其像对抗网络、生成对抗网络等一些相关的技术应用,如何定义应用场景和数据值得被训练大有讲究。

以面部识别技术为例,首先需要“定义的问题”,要考虑清楚其应用场景(室内、室外等)、应用用户(全脸、戴口罩、墨镜等),以及识别的效率、数据精准度等等内容;之后的“策略方法”则需要考虑如何采集标注数据,从而应用于模型训练。再经过模型验证环节,如有特定的场景识别不精、就需要重新“定义问题”,一直到无问题才可顺利进行部署。

关于计算机视觉应用落地面临的数据挑战,贾宇航谈到“尤其是产品到了发布前期,要面对最终交付的客户、识别的精度、适用的落地场景等内容,都对产品落地有着很深的影响。而「策略性的主动获取+大规模高效高精标注」是很多处于产品发布、或者重大迭代更新的阶段的CV产品首要面临的数据挑战。

计算机视觉应用落地中的数据选择标准与实现路径

云测数据总经理贾宇航总结道:“随着交付经验的不断丰富,云测数据总结了计算机视觉产品商业化落地,训练数据选择的标准趋向于六大趋势,分别是数据多维化、场景多元化、 样本多样化、内容专业化、作业精细化、作业高效化。”

针对这几大趋势,AI数据服务领域头部企业云测数据利用智能标注平台提升CV数据标注质量与效率 。

相对于文本或者音频来说,计算机视觉涉及的数据维度很多元。云测数据的标注平台做到了通用品类的全品类覆盖,并提供全品类的多元需求任务模板导入,同时支持任意层级属性添加;

云测数据在智能标注平台质检保证中,实现了全作业流程内网中自动流转,支持多层级质检,及不同检验模式,同时引入了特定规则用以辅助质检,以确保数据标注的高质量和高效率;

同时,专注于研发标注平台人性化操作,如在语义分割中,支持共边,自动打点等功能;在车道线标注中,针对曲线光滑性要求的贝塞尔曲线;3D点云标注中,支持基于规则的自动贴合等等方式设置,来保证数据标注精度上升的同时,数据交付的高效性和大批量等需求。

在公开课的最后,贾宇航强调“云测数据一直致力于让企业拥有高质量AI数据,成为企业的核心竞争壁垒。”丰富的场景数据是算法研究的保障和基石,训练数据质量的高低直接决定最终模型效果的好坏。现阶段,优质的训练数据之于计算机视觉,就在于可以最大程度上提升计算机视觉产业落地的效率和稳定性,为相关企业起到“护城河”作用,从而助力计算机视觉产业的蓬勃发展。