2023年,大模型的风席卷而来。
根据赛迪顾问研究显示,仅2023年1月至7月,我国就有共计64个大模型发布。截至2023年7月,我国已累计发布130个大模型。其中不乏阿里、腾讯、百度、360、科大讯飞等科技大厂,一场“百模大战”一触即发。
大模型要想不断地升级进化,数据是不可缺少的基石。根据相关消息显示,在如今 OpenAI 基于 GPT-4 的训练中,不仅包括逻辑推理,更包括如数据清洗、高质量数据标注等环节。
云测数据总经理贾宇航表示:“作为人工智能的三要素之一,‘数据’从本质上决定了人工智能的落地水平。通常来说,数据标注得越准确,数量越多,模型效果越好,最后的AI产品效果就越好。”
可以看到,“百模大战”的当下,企业需要高质量、场景化、高效率的AI数据服务来进行数据训练,助力大模型更好更快的发展。
数据是大模型胜负手
作为人工智能的三要素之一,数据是关键生产要素和生产资料。
马斯克就曾公开表示,随着产品更好地理解问题,所需的算力将减少几个数量级,而“数据荒”更难解决,“在某个时候,AI训练会耗尽人类数据,最终人工智能将不得不自己生成数据。”
但是放眼市场,高质量的数据供给一直是稀缺资源。
7月初,加州大学伯克利分校的计算机科学教授斯图尔特•罗素(Stuart Russell)发出警告称,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”,通过收集大量文本来训练机器人的技术“开始遇到困难”。
研究机构Epoch也估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。
国内也有专家认为:“未来一个模型的好坏,20%由算法决定,80%由数据质量决定。”
可以说,数据质量和数据量将是下一阶段大模型能力涌现关键中的关键。如果数据的问题不能解决,意味着大模型发展将缺少根基。
尤其是,目前来看,未来大模型将往垂直行业发展,更需要垂直行业的高质量数据。
行业痛点,往往是巨大商机所在。
庞大的市场需求,给数据服务厂商们带来了极大的机会。提供高质量数据供给、数据元件化和数据标注成为AI数据服务厂商们新一轮的挑战。
云测数据发布面向垂直行业大模型AI数据解决方案,以帮助垂直行业企业可以更好的落地大模型相关算法应用。
自成立以来,云测数据一直聚焦于场景化、高质量的AI数据服务。
目前,云测数据深度合作伙伴覆盖了汽车、安防、手机、家居、金融、教育、新零售、生态系统等多个行业。其中包含众多世界500强企业、高校科研机构、政府机构、头部AI企业和大型互联网企业,涵盖了计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域。
一直在人工智能数据赛道深耕的云测数据也深知目前大模型面临的数据痛点。
多年的技术和多行业的积累之下,近日,云测数据在服贸会成果发布会上,首发了面向垂直行业的大模型AI数据解决方案。
具体来看,云测数据的垂直行业大模型AI数据解决方案可为行业大模型提供从持续预训练、任务微调、评测联调测试到应用发布的端到端过程中的高质高效数据。
多年的人工智能数据服务经验与技术积累,云测数据早已打造了丰富的数据样本资源池以及多维数据采集工具和流水线作业化的数据清洗工作平台,可以基于企业要求提供定向垂直场景的数据服务,为大模型持续预训练赋能。
并且,云测数据的垂直行业大模型AI数据解决方案搭配了灵活齐全的标注工具,差值预测、自动缩框、4D叠帧等等功能一应俱全,解决了大模型场景化应用所需的丰富的数据需求,全方位支持文本、语音、图像、视频等各类型数据的处理,为下游任务微调提供了人机耦合标注能力。
除此之外,云测数据的垂直行业大模型AI数据解决方案还支持特定数据回流处理。
截至目前,云测数据以高质量、场景化的AI训练数据服务为基础,持续为智能驾驶、智慧城市、智能家居、智慧金融等众多领域提供通用数据集、数据标注平台&数据管理工具、数据采集/数据标注等服务,全方位支持文本、语音、图像、视频等各类型数据的处理。
据了解,云测数据垂直行业大模型数据解决方案,可以为行业客户深度定制数据采集方案,助力获取高价值数据,在面对微调任务会根据大模型落地场景特点,提供包含QA-instruct、prompt等文本类任务项目和多模态大模型的相关能力支持。在完成微调后,云测数据通过垂直领域的人员和专家积累+评测体系和服务,帮助企业对各个垂直应用落地领域进行评估。并通过以集成数据底座为核心的数据标注平台,将难例数据回流完成清洗标注,为更有效率的模型调优做准备。
在贾宇航看来,目前人工智能行业已经从感知智能上升到认知智能,需要处理更深入的信息等能力。而云测数据将持续秉持“帮助企业拥有高质量的AI数据,成就企业核心竞争壁垒“的理念,为众多科技的AI能力提供粮草。