当前,大模型正处在产业落地前期,对数据的需求量在持指数级增长,高质量、大规模和多样性的数据成为保障我国人工智能快速发展的根本要素,“以数据为中心的人工智能”(Data-Centric AI)成为产业共识。高质量的数据,是大模型实现产业化的关键要素。在模型算法和算力开放的情况下,数据质量决定了大模型解决垂直行业问题的能力,高质量数据重要性进一步凸显。
比如,行业大模型的AI数据来自应用场景,采集能力影响着最终的准确程度,这就要求服务商必须有丰富的场景化意识,了解行业需求;大模型更看重人机协作,需要在预训练后进行持续微调再融入场景,所以针对大模型进行的预训练环节,含有大量的垂直行业数据,考验服务商在不同环节的处理能力;而在整个过程中,为了提升把通用大模型转化为行业大模型的能力,AI数据服务商必定要有一整套完备的工具、系统和平台。
云测数据发布的“面向垂直行业大模型数据解决方案”为行业大模型的发展提供从持续预训练、任务微调、评测联调测试到应用发布的端到端过程中的高质高效数据,以帮助垂直行业相关企业可以更好的落地大模型相关算法应用。
自成立以来,云测数据一直聚焦于场景化、高质量的AI数据服务。深度合作伙伴覆盖了汽车、安防、手机、家居、金融、教育、新零售、生态系统等多个行业。其中包含众多世界500强企业、高校科研机构、政府机构、头部AI企业和大型互联网企业,涵盖了计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域。
多年的人工智能数据服务经验与技术积累,云测数据早已打造了丰富的数据样本资源池以及多维数据采集工具和流水线作业化的数据标注平台,可以基于企业要求提供定向垂直场景的数据服务,为大模型持续预训练赋能。
举例来说,云测数据的垂直行业大模型AI数据解决方案搭配了灵活齐全的标注工具,差值预测、自动缩框、4D叠帧等等功能一应俱全,解决了大模型场景化应用所需的丰富的数据需求,全方位支持文本、语音、图像、视频等各类型数据的处理,为下游任务微调提供了人机耦合标注能力。
除此之外,云测数据垂直行业大模型数据解决方案,可以为行业客户深度定制数据采集方案,助力获取高价值数据,在面对微调任务会根据大模型落地场景特点,提供包含QA-instruct、prompt等文本类任务项目和多模态大模型的相关能力支持。在完成微调后,云测数据通过垂直领域的人员和专家积累+评测体系和服务,帮助企业对各个垂直应用落地领域进行评估。并通过以集成数据底座为核心的数据标注平台,将难例数据回流完成清洗标注,为更有效率的模型调优做准备。