除了要在生成式AI技术上争高下的大型科技公司,大部分企业最担心的还不是芯片的问题,而是数据问题。理论上,企业都可以使用完全一样的基础模型,但只有利用自身独特数据来创建生成式AI应用,才算是真正利用了生成式AI。
数据是成功实施生成式AI的关键,而数据结合基础模型可以创造出独特的价值。
以Perplexity为例,它通过结合传统搜索引擎、客户数据与大语言模型,创建了独特的产品。用户可以直接用自然语言提问,而不是构建关键词,Perplexity会快速从各种来源筛选信息并进行总结,以对话方式提供有出处的答案。
Perplexity是目前最火的AI初创公司之一,不到50人的团队就获得了10亿美元估值。最近又传出了新一轮融资的消息,估值规模还在膨胀。此前,英伟达CEO黄仁勋曾透露说正在使用Perplexity,AI技术大佬贾扬清也在关注Perplexity并推出了类似产品。
Perplexity展示了基础模型与数据结合的价值。那么,企业如何将自身数据与大模型结合呢?
企业将自身数据与大模型结合的三种方法
对于企业来说,可以使用检索增强生成(RAG)、微调和持续预训练,这三种方式来使用数据。其中,RAG适用于需要隐私保护、涉及企业私域知识的场景,微调适用于提高特定任务性能的场景,持续预训练则适用于构建行业特定大模型的场景。
三种方式对数据的要求也不同。RAG主要依赖企业内部的文档库和数据库,微调需要高质量标注数据,而持续预训练需要大量未标注的原始数据。技术上,RAG需要快速的向量检索能力,微调需要选取和验证高质量的数据集,持续预训练则需要处理大规模数据集的能力。
作为全球大型号公有云服务商,亚马逊云科技旗下的Amazon Bedrock可以提供检索增强生成(RAG)、微调和持续预训练三种能力,但这都不是数据层面的能力。亚马逊云科技提供了一系列的数据相关服务,可以帮助企业构建面向生成式AI的数据底座。
亚马逊云科技大中华区产品部总经理 陈晓建表示:“亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。”
这里提到的三大核心能力分别是:模型微调和预训练所需的数据处理能力,利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续发展的能力。
这就是亚马逊云科技解决生成式AI数据难题的三板斧:
第一个核心能力:模型微调和预训练所需的数据处理能力。
关于如何构建强大的数据处理能力,陈晓建将重点落在了数据存储、数据清洗和数据治理上。具体包括,如何选择合适的数据存储产品,如何有效地进行数据清洗,以及实现精确的数据管理和安全控制。
在生成式AI应用开发中,企业需要能够处理和存储海量的多模态数据,这些数据通常在TB到PB级别。对此,亚马逊云科技提供了支持大容量存储的Amazon S3和提供高性能存储的Amazon FSx for Lustre。
数据清洗对于生成式AI应用非常重要。亚马逊云科技的Amazon EMR Serverless和Amazon Glue这种高级数据处理服务,可以用来帮助企业轻松完成数据的清洗、去重和分词等预处理任务。这些工具不仅易于使用,还能根据需求动态扩展,提升数据处理效率并降低成本。
随着企业数据量和数据源的增多,数据治理也越来越复杂。亚马逊云科技的Amazon DataZone提供了一个平台,使企业能够在组织边界之外大规模地发现、共享和管理数据。这不仅解决了数据访问和控制的问题,还简化了数据协同和治理过程,使企业能够更有效地利用其数据资源。
亚马逊云科技通过其数据处理和管理服务,支持企业在快速发展的生成式AI领域中构建和维护强大的数据基础设施,为后续真正利用数据打下了基础。
第二个核心能力,利用专有数据与模型快速结合的能力。
当想要利用数据时候会发现,常见的各种基础模型都缺乏针对特定行业的深入知识,可能会产生幻觉,会缺乏实效性,还可能会引起隐私问题。为了克服这些挑战,业内比较推崇的做法是采用检索增强生成(RAG)技术,利用企业内部的数据来获取更多上下文信息。
RAG技术的核心在于利用向量嵌入(vector embeddings)来强化模型的上下文理解能力。通过这种方法,可以将分词后的数据转化为数字向量,这些向量被储存在多维空间中,以简化数据内容的关联分析。
向量存储对于RAG技术非常重要,如果能将向量搜索和数据存储结合在一起就更好了。这样一来,用户无需额外学习向量存储,就能获得更快速和精确的检索能力。事实上,亚马逊云科技在其多种数据存储产品中都集成了向量搜索功能,极大地增强了这些服务的灵活性。
以亚马逊云科技的图数据库Amazon Neptune为例,它特别适用于处理复杂的数据关系。与传统数据库相比,Amazon Neptune提供了80倍的数据分析速度,能在短时间内处理连接数亿个数据点。它通过将图数据与向量数据结合,进一步提升了数据检索的效率。
总之,通过这些创新技术,亚马逊云科技为企业提供了强大的工具,帮助企业快速结合模型和数据来产生独特的商业价值。
第三个核心能力:有效处理新数据的能力。
在构建生成式AI应用时,除了基础数据处理能力和快速利用数据的能力以外,企业还必须有效处理新数据的能力。这一能力的价值主要体现在优化数据处理和降低成本上。
生成式AI对计算资源的要求非常高,尤其是在频繁调用底层基础模型的情况下,这不仅会增加成本,还会延长响应时间。对此,企业可以采用数据缓存策略来应对。例如,通过将常见的查询结果存入高速缓存来避免对基础模型的重复调用,从而减少成本并提高效率。
Amazon Memory DB是一个集成了向量搜索功能的内存数据库,其快速响应和高召回率使得它非常适用于需要实时处理的应用场景,如欺诈检测和聊天机器人。它可以通过缓存常见请求结果来减少对基础模型的调用,从而降低成本和提高响应速度。
Amazon Memory DB通过缓存的方式大大降低对于资源的消耗,减少了成本支出。事实上,除了Amazon Memory DB,亚马逊云科技上还有很多产品技术达到类似降低成本的效果,比如各种Serverless技术。
Serverless技术为生成式AI的部署提供了极大便利。比如,使用Amazon EMR Serverless和Amazon Glue来做数据清洗时,这些服务支持资源的自动扩缩,能简化常见的IT管理工作,允许用户将更多精力放在业务逻辑上,而不是花精力进行运维。
Serverless技术不仅可以帮助企业优化生成式AI的性能和成本效率,还可以凭借其灵活性上的优势,帮助企业快速适应市场变化、提升业务响应速度,在竞争激烈的市场中快速部署创新应用,及时满足用户需求并推动业务增长。
陈晓建表示:“作为全球云计算的开创者和引领者,亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”