AI落地关键期,困扰模型训练的数据难题如何解决?

谷歌首席架构师、谷歌人工智能团队谷歌大脑的负责人,Jeff Dean曾在公开场合这样强调数据对于AI算法的重要性:

以上横轴为数据量,纵轴为准确率,蓝色以及绿色线条分别代表深度学习以及传统算法。根据Jeff Dean的预判,随着数据规模的不断扩大,未来深度学习算法的精度也将不断提升。

人工智能背后的数据力量 

人工智能的发展目标是让机器像人类一样学会学习。算法模型训练、提升性能、机器学习等都需要大量数据的迭代与支持,数据的采集、标注与价值挖掘是AI得以在实际应用场景中大展拳脚的重要工作前提。

而想要做好“数据”,不仅是要懂 “数据”,更重要的是针对数据采集标注软件工程能力和系统能力入手。事实上,正所谓“工欲善其事必先利其器”,如何通过技术层、工具层的优化,在最大限度提升人效比的同时提升数据标注准确性,做好数据标注这件“人机协作”的事,成为AI应用落地的重要课题。

面对当前市场需求,AI数据服务供应商为助力AI产业发展积极献言建策,纷纷做出积极尝试。云测数据推出的数据标注平台以完成人工智能算法训练所需的数据“在环迭代”为目标,致力于推动AI模型训练数据持续以高效率、高质量的特点,加速AI在行业的场景化落地。

全品类、多工具组件,可灵活部署

由于AI应用场景边界的不断扩展,数据标注工具也从简单过渡到复杂,以往市面上开源工具多已经无法适应工具需求从简易到复杂的变化。加之数据标注业务具有多样性、丰富性,集成多样性、灵活些的标注工具平台成为实现现阶段精准标注数据的首要需求。

云测数据推出的数据标注平台支持图像、文本、语音、视频以及点云数据等数据类型的一站式加工处理,拥有3D立体框、点云语义分割、特征点、线段、矩形框、曲线、平面立体框、多边形等20+种工具组件,可灵活满足不同的标注需求,配合算法模型进行数据处理落地,并支持标注工具的定制开发。

可视化项目管理,助推产能提升

前文有说到,开源工具可满足数据标注需求前期的简单需求,在选择标注工具平台方面,也有一些AI科技企业和数据服务商通过改写开源工具以获得标注能力。但这样的操作极具局限性——改写的工具仅能满足当前最急迫的标注需求,长期却无法适应项目更替。

在云测数据标注平台的流程管理上,可准确地把控从创建任务、分配任务、标注流转到质检/抽检等环节,实现对数据标注过程的全流程掌控,数据标注后经过审核、质检、验收等不同环节确保数据准确性。平台流程之间的自动化流转的作业衔接,达到了更快的流转速度,能更好的提升数据作业的效率。同时在整个项目流转的过程中,操作员无法对数据进行下载和传输,风险管控机制完善,可全方位保证数据的隐私安全。

更好的数据标注平台,解决数据训练问题

随着人工智能技术在各个行业的落地进程不断加速,算法模型对数据提出了更高要求。在“工欲善其事必先利其器”这样的背景之下,数据标注平台在质量和生产效率上都制约着产能的提升。数据标注工具的结构创新、智能化、工程化等能力,才是助力AI产业快速落地的推进器,成为行业发展过程中各方的共同追求。