谷歌最近公布了一款名为DataGemma的人工智能(AI)模型,旨在解决AI生成错误信息的“幻觉”问题。DataGemma模型结合了检索交错生成(Retrieval-Interleaved Generation, RIG)和检索增强生成(Retrieval-Augmented Generation, RAG)技术,通过与开源知识图谱Data Commons的结合,提高了查证能力,从而减少AI幻觉。
图片来自谷歌
DataGemma是首个将大型语言模型(LLM)与现实世界数据相结合的案例,通过这种方式,谷歌希望能够减少AI在生成回答时的幻觉现象。目前,谷歌已经在Hugging Face上公布了DataGemma模型的代码和其他相关信息。
Data Commons是谷歌建立的开源知识图谱,其数据来源包括联合国、世界卫生组织、美国疾病控制与预防中心(CDC)和美国人口普查局等值得信赖的组织。它涵盖了健康、经济、人口和环境等多个主题,包含超过2400亿个丰富的数据点,统计变量横跨数万种。Data Commons的用户可以通过Google开发的AI自然语言界面进行查询,研究人员可以查询例如非洲电力普及率增长最快的国家,或是收入与美国各郡糖尿病关系等问题。
谷歌通过两种方法提升DataGemma的理解能力,使其更接近事实。第一种是RIG方法,当用户使用DataGemma生成回答时,它会从Data Commons中寻找统计数据并提供答案。第二种是RAG方法,当用户查询DataGemma时,它会利用Gemini 1.5的长脉络空间,先从Data Commons获取上下文信息,然后生成回答,以此减少幻觉并提升回答质量。
谷歌之前已经利用开源的Gemma和Gemma 2作为基础,通过RIG和RAG技术微调出了变种版本。这次则是以Gemma 2为基础,再结合RIG和RAG方法,生成了两个27B版本的DataGemma变种,并已在Hugging Face平台公开。Google计划继续改进这些方法,并将它们整合到开源的轻量模型Gemma以及Gemini家族模型中。初步将局部开放给少数人试用,然后逐步扩大开放范围。
——————
由DOIT传媒主办的2024中国数据与存储峰会定于2024年11月8日在北京召开。本届大会关注数据存储与人工智能等前沿技术的最新突破和实际应用,与来自全球的行业领袖、技术专家和企业代表将齐聚一堂,共同探讨如何通过数据驱动的创新推动企业数字化转型。