8月 28 日,阿里云面向 AI 全面升级存储数据服务,大幅提升从数据采集、预处理到大模型训练及推理的数据处理效率。新升级的表格存储 Tablestore 向量检索服务,查询时延较开源引擎降低 80%,而资源消耗仅为开源的 10%,可整体节省 50% 存储成本,适用于推荐系统、图像与视频检索、自然语言处理与语义搜索等多个应用场景。
多模态已成为 AI 大模型发展趋势,而庞杂的文字、图片、音频、视频等不同模态数据如何统一存储及高效管理,是 AI 实现下一步飞跃的关键所在。其中,向量检索被认为是效率最高的检索方法之一,非结构化数据可基于同一套向量体系进行统一存储和检索,可有效解决大模型幻觉和知识更新问题,整体提升大模型在实际应用落地场景中的性能表现。
为满足 AI 新需求,阿里云全新升级了表格存储 Tablestore,可提供千亿行规模数据的存储和检索服务,并支持 RAG 应用、多模态搜索及元数据服务等,整体存储成本可降低 50%。表格存储采用 Serverless 分布式框架设计,基于 DiskANN 算法深度优化,仅将 10% 的图索引数据存放至内存,实现和主流 HNSW 图算法同等水平的高性能,大幅节省90%的内存资源消耗。在相同资源消耗情况下,较开源向量引擎,表格存储索引写入时间降低 65%,查询时延大降 80%。
图说:Tablestore向量检索查询性能与开源引擎对比图
从数据采集、数据准备、模型训练和推理到 RAG、AI 应用,阿里云存储针对AI大模型数据处理全链路实现全面升级优化。在模型训练和推理阶段,利用对象存储 OSS 构建统一的AI数据湖底座,并结合CPFS、全新的 OSS Connector for AI/ML 等存储产品和能力,可大幅降低数据集加载时间,有效提升模型训练效率;面向 AI应用,阿里云全新升级 OSS MetaQuery 能力,结合表格存储 Tablestore 向量检索能力,帮助企业和开发者在云上简化 AI 应用的搭建流程,快速验证业务创新思路。例如,企服公司“AI集象”基于Tablestore完成 RAG 智能检索升级,为客户提供更快、更强、更稳定的 AI 智能数据服务,实现业务提效。
图说:阿里云存储面向AI时代全面进化升级
据了解,在 Forrester 全球 AI 基础设施解决方案报告中,阿里云 AI Infra 综合产品力居全球第二。阿里云存储是当前国内规模最大的存储服务商,拥有全球云计算厂商中最完整的存储产品线,曾获中国电子学会科学技术特等奖、世界互联网领先科技成果奖,盘古分布式存储技术还曾荣获中国发明专利金奖。