中国AIGC数据标注全景报告:更高质量、专业化的数据标注成刚需

大模型时代到来,AIGC众多垂直场景落地,以及通用智能、具身智能等前沿领域探索,与高质量、专业化的场景数据密不可分,数据标注从劳动密集型加速朝着知识密集型转型,行业壁垒进一步提高。近日,量子位智库发布《中国AIGC数据标注产业全景报告》,从我国数据标注行业现状、四大关键变化、三大影响要素、行业发展及市场规模等多角度、多方向地全面立体描绘中国数据标注产业全景。

报告指出,AIGC数据标注有三大影响因素,分别是技术能力、场景资源、飞轮效应。

作为AI底层服务,数据标注最本质的就是为下游客户降本增效。而技术是降本增效的最优解决路径,持续迭代技术能力的企业将有机会脱颖而出。包括不限于数据闭环工具链的智能化水平、对大模型/AI算法的理解、数据工程化能力、基础设施建设等。

场景资源能力主要包括数据和人才两个层面:高质量的场景数据以及场景人才(领域专家、深度用户等)。这与行业持续多年的深耕不无关系——企业懂得行业know-how,能够根据客户需求,快速找到并利用与场景最为贴合的数据和人才资源。

报告指出,数据标注仍具有飞轮效应。以往靠销售渠道、人力成本等驱动因素,服务商实现业务量增长,进而赢得市场获得口碑,获得新客户也会越来越容易。在技术和场景资源能力双重驱动下,数据处理能力越强,大模型标注经验越丰富,落地案例越来越多,数据处理的可扩展性和灵活性也越高。这样一来,新创业公司入局门槛将进一步提高,专业数据服务提供商更多机会将在垂直场景,帮助企业完成私有化部署。

根据《中国AIGC数据标注产业全景报告》显示,云测数据作为人工智能数据服务领先代表厂商,以高质量、场景化的AI训练服务为基础,持续为智能驾驶、智慧城市、智能AIOT、智慧金融等众多领域提供数据集、数据标注平台、数据管理工具、数据采集标注等服务。

云测数据在今年发布了面向垂直行业大模型的数据解决方案。据介绍,该AI数据解决方案可为行业大模型提供从持续预训练、任务微调、评测联调测试到应用发布,全生命周期的高质高效数据,帮助垂直行业企业更好地落地大模型相关算法应用。云测数据垂直行业大模型数据解决方案,可以为行业客户深度定制数据采集方案,助力获取高价值数据,在面对微调任务会根据大模型落地场景特点,提供包含QA-instruct、prompt等文本类任务项目和多模态大模型的相关能力支持。在完成微调后,云测数据通过垂直领域的人员和专家积累+评测体系和服务,帮助企业对各个垂直应用落地领域进行评估。并通过以集成数据底座为核心的数据标注平台,将难例数据回流完成清洗标注,为更有效率的模型调优做准备。

随着人工智能深入自动驾驶、智慧医疗、智慧教育等诸多行业领域,AI算法对训练数据维度和样本复杂性的要求变得越来越高,对数据标注技术、标注平台能力、不同维度数据协同标注等都提出了挑战。云测数据总经理贾宇航表示,当前,大模型正处在产业落地前期,高质量的数据,是大模型实现产业化的关键要素。只有最大化地发挥AI训练数据的价值,推动数据要素有序发展及高效利用,才能更好地帮助垂直行业相关企业可以更好的落地大模型相关算法应用。