10月23日,蚂蚁集团在北京发布了OceanBase最新版4.3.3。作为首个面向实时分析的 GA 版本,OceanBase 4.3.3 在多个关键能力上取得了显著突破,尤其在 AI 时代的数据处理需求下,为用户带来了全新的功能和性能提升。也是蚂蚁基于客户场景和需求推出的一体化数据库。
那么,AI时代数据处理有哪些新特征,对数据库提出了哪些新挑战?一体化数据库在针对AI场景的数据处理方面有哪些优势?OceanBase新版本如何应对?
AI时代对于数据库提出新挑战
随着越来越多的AI应用扩展到超越纯文本生成和回答,多模态应用程序变得愈发普遍,它们不仅能够处理文本,还能处理图像、音频、视频等复杂非结构化数据。这些数据类型通常分散在企业IT架构的不同数据库中,并通过不同的管道访问,使得使用它们的过程既困难又繁琐。
以典型的多模混合查询为例,消费者在AI应用中搜索“推荐距离五百米以内,人均消费24元以下,评价4.5分以上,不用排队的奶茶店“,这时数据库要同时处理GIS数据(距离)、关系型数据(价格、评分)、向量数据(不排队)等类型的数据。
面对这种复杂性,AI时代的数据处理呈现出以下新特征,并对数据库提出了新的挑战:
数据处理实时性要求高 – 实时性与低延迟:随着实时数据分析和决策的需求增加,数据库必须能够快速处理大量数据,以支持实时应用,如在线推荐和动态定价。这对传统数据库在性能和响应时间上提出了更高的要求。
数据类型日益多样化 – 海量数据与多样性:AI应用生成的数据量大且类型多样(结构化、半结构化和非结构化),数据库需要具备处理和存储不同类型数据的能力,要求支持多模架构,以满足多模态的数据需求。
数据处理复杂度增加 – 复杂融合查询:AI应用对复杂数据分析提出更高的需求,数据库需要支持复杂SQL查询优化,提升查询性能,以满足深度学习和机器学习模型的训练与预测需求。
多源数据整合:不同来源的数据需要进行融合处理,以获取更全面、更准确的信息。例如,将企业内部不同业务、不同工作负载的数据,甚至生态业务数据、行业数据进行融合,分析企业的市场竞争力和发展趋势。
什么是一体化数据库?OceanBase如何践行一体化产品理念?
一体化数据库是一种能够处理多种工作负载、数据类型及场景的数据库系统,旨在通过一个数据库满足企业各种复杂的数据需求,简化技术栈,提升效率并应对日益复杂的数据需求。这种数据库通常具备事务处理(TP)和分析处理(AP)能力,支持多模数据处理(如JSON、XML、GIS、文档等),并兼容多种主流数据库协议(如MySQL和Oracle),让用户能够在一个数据库上满足多样化的数据处理需求。
OceanBase就是这一理念的代表性实践,其一体化能力不是设计出来的,而是客户场景和需求催生出来的。在这一过程中,OceanBase经历了几个关键发展阶段。最初,从早期客户在互联网场景MySQL需求,到金融行业和电信行业的核心系统对Oracle兼容性的需求,推动OceanBase一体化SQL引擎的出现,通过一个引擎同时实现Oracle和MySQL两种数据库的高度兼容,满足了不同业务的多样化需求。
不仅如此,在满足TP关键业务负载的同时,客户需要更加灵活的复杂性查询及实时AP分析能力满足业务灵活性诉求,OceanBase从最初的事务处理(TP),发展为一个能够支持关键业务负载,同时也能进行复杂查询和实时分析的混合工作负载数据库(TP+AP)。这种能力让企业在关键业务负载的同时,也能高效应对动态业务场景中的复杂性查询与实时数据分析需求。
面对日益多样化的数据需求,OceanBase进一步增强对多数据类型的支持。除了传统的结构化数据,它还支持JSON、XML、GIS等多样化的数据类型,能够处理海量数据的KV存储,并兼容HBase和Redis等多模数据库系统。这种多模一体化能力使得OceanBase不仅可以应对大规模数据场景,还能为企业提供灵活的多种数据类型处理能力,进一步巩固其作为一体化数据库的优势。
随着AI技术不断深入应用,OceanBase 还在一体化架构上实现 SQL+AI 的能力,支持向量检索,并能处理向量与其他数据类型的混合查询,如GIS、关系型数据、向量数据、文档等。通过向量融合查询能力,帮助企业更轻松地将AI能力与数据库系统集成,简化AI应用技术栈,为复杂的AI应用提供强有力的支持。
一体化数据库展现在针对AI场景数据处理方面的多方优势
一体化数据库在数据处理方面的优势主要体现在以下几个方面:
1)多工作负载(TP + AP)
一体化数据库能够同时处理在线事务处理(如支付、订单等高频交易场景)和复杂的实时分析查询。这种混合工作负载能力使企业不再需要为事务型和分析型数据分别设计不同的数据库架构,从而减少系统间的数据传输延迟,避免数据冗余。在确保数据一致性的前提下,满足实时分析的需求并提高决策的实时性。
2)多模(SQL + NoSQL)
一体化数据库能够处理多种数据类型,涵盖结构化、半结构化和非结构化数据(如JSON、XML、GIS、文本等)。通过一个数据库系统,企业无需部署多个专门的数据存储系统,大幅简化了数据管理,减少了复杂的跨系统集成与协调工作。这种统一的数据管理不仅提高了系统的可维护性,还减少了数据孤岛现象,确保数据的一致性与完整性。
此外,一体化数据库还能够处理包括KV存储、关系型数据、文档数据、向量数据等多种数据类型。通过一个统一的数据库,企业能够灵活应对各种数据处理场景,无需切换或增加额外的专用系统。OceanBase在满足JSON、XML、GIS等多数据类型诉求的同时,支持KV、HBase、Redis等多模存储,帮助企业统一数据接口,灵活应对海量数据和多样化业务需求。
3)向量(SQL + AI)
如今,近80%的数据都是非结构化数据,而且这一趋势还在持续。一体化数据库还具备深度融合的AI + 多模查询能力,通过集成向量检索和混合搜索功能,显著简化了AI技术栈。像Rockset和Oracle这样的数据库系统通过hybrid search融合查询技术,将SQL查询与向量化查询相结合,使得数据处理能够同时包含文本、结构化数据和向量数据等不同类型。
在OceanBase中,向量能力的引入实现了向量与SQL处理的深度结合,特别是面向AI的场景。OceanBase能够通过统一的架构支持包括关系型数据、向量数据、GIS多模混合查询。这意味着用户不仅可以通过SQL执行常规的关系型数据操作,还能够无缝地集成向量检索,用于AI模型的推理、推荐系统、智能搜索等应用场景。
这种融合极大地减少了数据在不同系统间传输的复杂性,避免了传统AI模型所需不同类型数据库之间的耦合集成。企业可以在一体化数据库中同时进行事务处理、复杂分析以及AI相关的工作负载,显著提高应用开发效率并简化AI技术栈。
OceanBase新版本为应对AI时代的数据处理提供六大核心能力
OceanBase 4.3.3 作为首个面向实时分析的 GA 版本,在多个关键能力上取得了显著突破,尤其在 AI 时代的数据处理需求下,为用户带来了全新的功能和性能提升。以下是此版本的重要创新与其对 AI 场景的具体支持:
1)向量融合查询能力
OceanBase 4.3.3 在关系型数据库基础上新增了向量检索能力,支持向量数据类型、向量索引以及基于向量索引的搜索能力。用户可以通过 SQL 和 Python SDK 等方式灵活使用 OceanBase 的向量检索能力。结合 OceanBase 对海量数据的分布式存储能力,以及对多模数据类型和多种索引的支持,OceanBase 4.3.3 提供了更加丰富的融合查询能力,大幅简化 AI 应用的技术栈,加速 RAG、智能推荐和多模态搜索等业务场景的落地。
2)全新的列存副本形态
为了更好地支持 HTAP 混合负载场景,OceanBase 4.3.3 引入了列存副本的新形态,满足 TP 和 AP 负载资源物理强隔离的需求。在混合场景中,事务处理和分析处理通常会对系统资源产生不同的需求,而这种物理隔离的副本机制确保了系统在处理事务型负载的同时,不会受到分析型负载的干扰。尤其对于实时数据分析和决策,这种隔离机制能够确保系统的高性能和稳定性。
3)AP 类查询的性能优化
在新的版本中,OceanBase 针对 AP(分析处理)场景进行了大幅度的性能优化。通过对 AP 类 SQL 的执行计划生成和执行策略的优化,显著提升了复杂查询的效率。特别是在海量数据分析和复杂数据融合查询时,新版本提供了更短的响应时间和更高的吞吐能力,帮助企业在实时分析和预测任务中更快获得结果。
4)新增与优化的复杂类型支持
OceanBase 4.3.3 进一步扩展了对复杂数据类型的支持,新增了 Array 类型,并优化了 Roaringbitmap 类型的计算性能。这为企业处理多样化数据结构提供了更大的灵活性,同时强化了基于物化视图的改写与刷新机制,使得复杂的分析任务能够更高效地执行。
5) 外表功能扩展及性能提升
在数据导入和集成方面,OceanBase 4.3.3 大幅优化了外表(External Table)的功能,并提高了数据导入的性能。这使得外部数据源的整合更加流畅,特别是对于需要频繁导入大规模数据的场景,企业可以更快地完成数据同步,满足业务的实时需求。
6)快速恢复与 QUERY 级资源组支持:OceanBase 新版本引入了一种无需恢复数据到本地即可通过恢复日志提供读写服务的快速恢复能力,这种机制在数据恢复场景中显著提升了系统的可用性。此外,4.3.3 版本还支持了 QUERY 级别的资源组设定,使得系统能够更灵活地分配和管理资源,进一步提升了在高并发、复杂查询环境下的可靠性。
总的来说,OceanBase 4.3.3 通过对向量支持、实时AP及混合负载、复杂查询优化、外部数据集成及系统可靠性的全面提升,为 AI 时代的企业数据处理提供了更高效、灵活和稳定的技术支撑。