引言
随着人工智能技术的飞速发展,RAG检索作为大模型应用中的关键技术之一,为提升模型的性能和实用性发挥了重要作用。
随着企业数字化转型的加速和对智能化应用的需求不断增加,对大模型RAG检索技术的市场需求也呈现出快速增长的趋势。企业希望通过利用RAG检索技术,提升其在信息处理、知识管理和客户服务等方面的效率和竞争力。据市场研究机构预测,未来几年RAG检索相关市场规模将持续扩大。
近日,浪潮信息发布 “源”Yuan-EB(Yuan-embedding-1.0,嵌入模型),在C-MTEB榜单中斩获检索任务第一名,以78.41的平均精度刷新大模型RAG检索最高成绩,将基于元脑企智EPAI为构建企业知识库提供更高效、精准的知识向量化能力支撑,助力用户使用领先的RAG技术加速企业知识资产的价值释放。
Yuan-EB(版本号Yuan-embedding-1.0)是专为增强中文文本检索能力而设计的嵌入模型(也称Embedding模型),在 “源2.0”大模型的工作基础上,创新性地采用了“源2.0-M32”大模型进行数据重写与合成,并通过索引技术、样本排序等系列方法完成高质量微调数据集构建,能够有效提升RAG系统的检索精度。
C-MTEB是目前业内最权威的嵌入模型测试榜单。其中,检索任务(Retrieval)是检索增强生成(RAG)场景下最为重要、应用最广泛的任务能力,考察的是Embedding模型从大量的数据集中找到并返回与给定查询最相关或最匹配的信息的过程。“源”Yuan-EB基于该任务提供的医疗、新闻、电商、娱乐等8个中文文本数据集,实现了业界领先的海量文本检索精度。
“源”Yuan-EB 助力RAG检索精度新高
嵌入模型在RAG流程中扮演着关键角色,它能够将复杂的高维数据(例如文本、图像或音频)转换为机器可理解的向量形式,直接决定了RAG检索的精准性和效率。
“源”Yuan-EB通过数据准备与模型微调两个方面的技术创新,实现了模型精度的大幅提升:
在数据方面,基于“源2.0”微调阶段的问答数据进行清洗与筛选,构建问题(query)与文本(corpus)数据集;使用“源2.0-M32”对C-MTEB训练数据进行重写与合成,通过索引技术与排序模型进行高效的难负样本提取,完成大规模难负例样本挖掘,形成高质量微调数据集。
在微调方面,通过两个阶段的领先微调方法实现模型能力提升。第一阶段,使用各个领域(医疗、新闻、长文本、娱乐等方向)的大规模数据进行对比学习训练;第二阶段,采用“源2.0-M32”生成的合成数据进一步微调,并使用MRL方法完成“源”Yuan-EB训练。
“源”Yuan-EB为用户提供了大模型企业知识库应用开发的最优模型选择,能够在RAG流程的多个方面起到显著的精度提升,包括信息检索的准确性、处理大规模数据的效率、消除语义歧义、降低计算成本、增强对长文档的处理能力以及模型鲁棒性等,最大化提升RAG流程的整体性能和应用效果。
RAG检索技术解析
RAG检索即检索增强生成(Retrieval-Augmented Generation),它将信息检索与文本生成相结合。其核心思想是在生成文本时,不仅依靠模型自身的参数化知识,还通过检索外部知识源来获取更准确、更丰富的信息,从而生成更符合用户需求和更具质量的文本内容。
技术流程
检索阶段:当接收到用户输入的查询请求时,系统首先会在预构建的知识库中进行检索。这个知识库可以是大规模的文本数据库、文档集合等。检索过程通常使用各种信息检索技术,如向量空间模型、倒排索引等,以找到与查询请求相关的候选文档或信息片段。
生成阶段:在获取到相关的检索结果后,将这些结果作为额外的输入信息提供给大模型。大模型会综合自身的语言理解和生成能力以及检索到的外部知识,生成最终的文本响应。
关键技术
嵌入表示学习:为了能够有效地在知识库中进行检索,需要将文本转换为向量空间中的嵌入表示。常用的方法包括词向量模型、Transformer架构中的编码器等,通过将文本映射为低维向量,使得语义相近的文本在向量空间中距离相近,从而便于检索。
检索算法优化:高效的检索算法是RAG检索的关键。除了传统的检索算法外,近年来还出现了基于深度学习的检索方法,如神经排序模型等,能够更好地捕捉文本之间的语义相关性,提高检索的准确性和效率。
融合机制设计:如何将检索到的知识与大模型的生成过程进行有效的融合也是一个重要的研究方向。常见的融合机制包括注意力机制、门控机制等,通过这些机制可以动态地控制检索知识在生成过程中的参与程度,使生成的文本更加自然流畅且符合逻辑。
RAG检索应用领域广泛
智能客服:在客户服务领域,RAG检索技术被广泛应用于智能客服系统中。通过检索知识库中的常见问题解答、产品信息等,智能客服能够更准确地回答用户的咨询,提高客户满意度。例如,许多电商企业的智能客服利用RAG检索为用户提供关于商品详情、订单状态等方面的快速查询和解答。
内容生成:在新闻报道、文案创作等内容生成领域,RAG检索能够帮助作者快速获取相关的背景知识和资料,从而提高创作效率和质量。一些新媒体平台利用RAG检索为创作者提供素材和灵感,辅助生成更具吸引力和深度的内容。
智能问答系统:类似于智能客服,但更侧重于一般性知识的问答。如百度知道、知乎等问答平台,借助RAG检索技术可以更好地理解用户问题,并从海量的知识中检索出最相关的答案,为用户提供更有价值的信息。
RAG检索技术的挑战与机遇
尽管RAG检索技术取得了显著进展,但仍面临一些挑战。
其中包括知识库的构建和维护成本较高,需要大量的人力和物力来收集、整理和更新知识;检索结果的准确性和相关性还有待进一步提高,尤其是在处理复杂、模糊的查询请求时;以及如何保护知识库中的数据隐私和安全等问题。
随着人工智能技术的不断创新和应用场景的不断拓展,RAG检索技术也迎来了诸多机遇。例如,预训练语言模型的不断发展为RAG检索提供了更强大的语言理解和生成能力基础;多模态技术的融合将使RAG检索能够处理更丰富的信息类型,进一步拓展其应用范围;此外,边缘计算和分布式技术的发展也将为RAG检索在资源受限的设备和场景中的应用提供支持。
结语
大模型RAG检索技术作为人工智能领域的重要组成部分,在提升大模型性能和拓展应用场景方面具有重要意义。
从市场现状来看,RAG检索技术在多个领域得到了广泛应用,市场需求持续增长,竞争格局日趋激烈。尽管面临一些挑战,但随着技术的不断进步和创新,RAG检索技术有望在未来实现更大的突破和发展,为人工智能的广泛应用提供更有力的支持,推动各行业的智能化升级。
相关链接:
Hugging Face C-MTEB榜单
https://huggingface.co/spaces/mteb/leaderboard
Yuan-embedding-1.0模型开源地址
HuggingFace链接:https://huggingface.co/IEITYuan/Yuan-embedding-1.0
ModelScop链接:https://modelscope.cn/models/IEITYuan/Yuan-embedding-1.0
始智AI链接:https://modelscope.cn/models/IEITYuan/Yuan-embedding-1.0