对话YashanDB CTO陈志标:如何推动国产数据库长远发展

深圳计算科学研究院(以下简称“深算院”)是深圳市人民政府2018年11月批准建设的“十大基础研究机构”之一,由深圳市科技创新委员会主管、深圳大学举办、深圳市龙华区人民政府共建的二类事业法人单位。

崖山数据库系统YashanDB是深算院完全自主研发设计的新型数据库系统,融入原创理论。近日,深算院YashanDB首席技术官陈志标接受了我们的采访,介绍了深算院在研究、工程等方面的经验,以及YashanDB产品的研发和推广。

从“理论”到“工程”

《湾区科技评论》:能否介绍一下深算院组织架构?理论团队和工程团队是如何配合的?相比其他的高校和企业,深算院的理论研究和产品研发有哪些不同?

陈志标:国家级实验室及先进的科研机构始终是发达国家在科技领域的战略支柱,如美国贝尔实验室、德国弗劳恩霍夫协会等。借鉴贝尔实验室的成功经验,深算院采取了一种独特的“理论+工程”双轨科研创新模式,以市场需求为导向,推动源头创新及关键核心技术的突破,并实现大规模的产业应用。

在理论研究方面,深算院汇聚了全球顶级青年科学家团队,专注大数据领域的原始创新探索,我们不追随热点,而是发现新挑战或是给出经典问题的新思路,引领一个研究方向并持续突破。自2019年揭牌至今,深算院围绕大数据的计算和管理,发表了近百篇论文,其中90余篇发表在CCF 推荐的A类国际学术会议/期刊上,樊文飞院士提出的有界计算、多核并行计算及跨模融合计算理论,将有望为大数据处理带来革命性的进步,具备国际引领创新能力;

在工程方面,作为一个“具备产品能力的基础研究机构”,深算院拥有可与硅谷相媲美的大数据系统工程团队,占比超过八成,团队中拥有数十位具备二十余年经验的数据库内核专家,在行业内首屈一指,具备从产品定义、代码实现到质量保障端到端的工程实现能力,我们坚持从0到1的系统开发,不基于开源系统上进行优化,而是真正掌握底层系统的每一个实现细节。

《湾区科技评论》:传统关系型数据库的发展情况如何?目前面临着哪些问题?深算院的YashanDB在此基础上做出了什么样的改进?

陈志标:数据库的发展始终遵循这样的一条规律:由原创理论方法驱动产业技术革新。1970年埃德加·弗兰克·科德(Edgar Frank Codd,1981年获图灵奖)提出数据关系模型,为关系数据库提供了理论基础,1976年吉姆·格雷(Gim Gray,1998年获图灵奖)提出共享数据库的一致性和锁的粒度,保障了数据库系统并发处理正确性。以理论为基石带动产业快速发展,催生了如Oracle、IBM DB2等业界领先的关系型数据库;随着数据量的增加,挑战着传统的系统与软件架构,1978年,莱斯利·兰波特(Leslie Lamport,2013年获图灵奖)提出Lamport逻辑时钟,成为分布式系统及技术的理论基石;互联网时代,谷歌的“三驾马车”论文发表,进一步推动了以离线大数据计算为主的Hadoop体系诞生与应用。

当前,信息技术的发展不但没有减速,反而因AGI通用人工智能的推动而持续加速发展,现有的数据库技术面临新挑战,如海量智能数据带来的数据规模不断增加、多模型数据处理需求、数据快速变化等,亟需新的计算模式的革新。只有在数据库基础理论研究方面实现创新与突破,才能点到面带来产品技术的全面变革,从而支撑起未来业务场景的需求。

根据原创理论方法驱动产业技术革新的历史发展规律,YashanDB坚持“理论”和“工程”并重,在经典数据库理论基础上实现了原创理论突破——有界计算、近似计算、异步并行执行、跨模计算等,这样使得我们的系统在面向海量数据处理、大并发事务处理,以及不同模态数据的混合查询等不同场景时具备领先优势。以有界计算理论为例,现有大数据方法通常基于分布式计算,但仍无法摆脱数据规模对算力的依赖,YashanDB将海量数据通过访问约束确定精确小数据集,实现大数据变小,突破了计算资源的限制,有界计算理论成果均发表于数据库顶级国际学术会议PODS、VLDB和SIGMOD,同时该理论也获得了2018年的Royal Society Wolfson Research Merit Award(英国皇家学会沃夫森研究优秀奖)。

在人工智能与大数据时代背景下,如何提升多模数据查询的优化程度,充分挖掘和运用多模数据的价值,成为未来发展趋势。我们通过融合机器学习与逻辑推理的方法,提出了跨模数据链接、语义级跨模关联等理论途径,实现了跨模计算的易用性,有效解决了跨模计算实时性低、计算成本高的痛点,目前我们已初步实现关系与图的统一计算。

《湾区科技评论》:请介绍一下YashanDB的研发经历?数据库的理论如何进行工程实现,如何把理论应用在产业需求上?其中的挑战是什么?

陈志标:理论落地是一个业界难题,研究和工程之间存在鸿沟,当前理论到市场落地率不到10%,在这里也分享下我们的一些经验:第一,研究与开发团队紧密结合、密切讨论,深度理解原创理论、并完成原型验证。例如,针对有界理论的工程落地,基础研究团队和产品研发团队前前后后讨论了将近两个多月,不断地发现问题、解决问题,经过很多尝试后最终实现了它的验证。第二是系统工程能力,这里包含开发标准的制定执行、代码产品质量的全面看护等等。如果说原型验证是一个点,那么工程实现就是一个面,需要考虑方方面面的事情,包括易用性、可维护性等,维度更多、更复杂,这也是从理论走向市场落地的一大挑战。我们采用系统化、流水线式质量保障方法为版本质量保驾护航,具备了从产品定义、代码实现到质量保障端到端的工程实现能力。第三,是对客户的全方位的支持。这就需要多从用户角度思考问题,我们通过与各行各业客户的深度交流,更加了解他们的实际需求和使用习惯,在版本迭代中,不断加强对主流数据库的兼容能力,帮助用户平滑迁移,提供从安装部署、一键迁移、智能运维到应用开发的全生命周期配套工具,助力用户降本增效。

历经数年的潜心研发,YashanDB在2022年正式发布了首个版本正式,并确立每年发布两个大版本的节奏。至去年,我们已针对不同业务场景,构建了基于全自研内核的完善产品体系,涵盖1个自主内核、单机/主备数据库、共享集群数据库、分布式实时数仓、空间数据库四大产品,以及迁移平台、运维平台、开发平台三大工具。

在实际场景中推广

《湾区科技评论》:目前崖山等产品的市场推广状况如何?客户有哪些方面的反馈?还会有哪些方面的挑战?

陈志标:目前,YashanDB已在多个行业及场景的核心系统中广泛应用,如政务、金融、能源、交通和智能制造等关键领域。YashanDB在平滑迁移、性能表现及稳定性方面均展现出了显著优势,获得了客户的广泛认可与高度评价,助力用户在众多核心业务系统中实现了底层技术的自主可控。

众所周知,金融业是数据库的最大客户,占据了市场五分之一的市场份额,且使用要求最高、应用最深。某金融客户的业务系统已在Oracle上稳定运行多年,希望通过一款国产数据库产品进行“改造”,但需要做到减少业务重写、系统平稳切换。“改造”工作将面临巨大的挑战,难度在于其业务逻辑主要通过Oracle数据库里大量内置的高级特性来实现,代码量十分庞大,对此,我们通过我们的崖山迁移平台YMP,自动化地对系统进行兼容性评估、数据迁移、一致性校验等工作,最终不到3人周即完成11万行代码的平滑迁移,大大缩短了客户原本数月的交付预期,创造了数据库国产改造新速度。

迁移能力之外,性能表现更是验证数据库产品能力的核心指标。对此,客户又提出了在同等硬件配置下做一个“性能PK”。与Oracle对比,在单业务流程中崖山数据库响应时间较Oracle快50%,大大提升业务处理效率,且并发吞吐量也是Oracle的1.3-2.4倍,意味着相同时间可以处理数倍业务请求,扩展了原有业务的处理上限。

对此YashanDB交出了一份满意的答卷,在替换原有的数据库系统后,YashanDB不仅保障了迁移过程的平滑安全,更在多个关键指标上实现了性能的提升,是1:1平替的绝佳选择。

无疑,作为新推出的产品,在市场推广过程中我们面临着诸多挑战。尤其是在起步阶段,客户往往担心新产品的性能不稳定、安全性不足或未来的支持不够。因此在PoC验证阶段我们向客户提供了高品质的产品和服务,在性能、安全性和用户体验等方面都能达到或超越了客户的期望。随着客户信任的逐步建立,我们也获得了更多的合作机会和市场认可,慢慢打开了市场局面。

《湾区科技评论》:国产自研的数据库,如何满足用户在数据库迁移时的需求?如何建立自己的服务生态?

陈志标:服务是数据库厂商的核心竞争力之一,我们始终以用户为中心,首先,构建了标准流程与专业工具体系,根据用户问题的严重级别,对问题进行分级管理和专人响应;其次,我们与全国各地的服务伙伴建立了深度合作关系,共同打造一个全国性的服务网络是YashanDB从1走向100的关键。

与此同时,数据库是典型的生态型产业。如何用好数据库、构建数据库生态以及培养人才等成为业界广泛关注的焦点。我们与上下游软硬件厂商“强强联合”,兼容适配了超百家芯片、操作系统、中间件等主流软硬件生态,与深智城、长亮、金蝶、超图等生态伙伴推出企业级联合解决方案,打造互助共赢的生态格局。在人才生态方面,我们推出了数据库人才培养和认证体系,现已覆盖全国20余个省份、数千名用户,持续为行业培养和输送高质量的数据库人才。

《湾区科技评论》:如何考虑进一步完善产品的商业模式?目前市场和服务团队的搭建情况如何?

陈志标:随着客户群体从深圳逐步扩展至全国各地,包括华东、华北等地区,我们的市场和服务团队将立足大湾区,积极布局全国网络。一是加强原厂的市场与服务能力,为直接客户提高更有市场竞争力的产品与解决方案;其次是与全国各地的渠道、服务伙伴建立深度合作关系,并建立本地的办事处,配备当地销售与服务渠道的骨干人员。

未来,我们基于行业应用的实际需求,持续提升产品的硬核能力、持续完善配套工具的支撑能力、持续加强数据库运维和服务能力,并深耕场景,系统打造场景规模化复制能力。

《湾区科技评论》:未来YashanDB研发的重点方向是什么?是更多的从理论出发,还是从目前客户关注的需求出发?

陈志标:产业持续发展的关键是在核心技术上的持续投入,并一定要落到产品里去,被市场广泛使用。YashanDB仍需要持续投入核心技术打造,做到技术可控、技术领先。面向未来,YashanDB在真正实现1:1平替能力之外,也将积极探索新的方向,如云原生、多模态和AI使能等,以提供更可用、好用、易用的数据库产品。

尤其随着AI的快速发展,我们认为智能化机遇将会给数据管理带来重大变革。一方面是DB for AI,包括前段时间大火的向量数据库;另一方面则是AI for DB,例如利用机器学习模型优化查询,以及实现SQL语言的自动生成,帮助用户减少交互工作。值得关注的是,跨模计算已成为AI时代的下一个重要考验,针对多模数据间模式转换的实时性难题,我们采用机器学习与逻辑推理相结合的方式,在理论方面取得了突破,目前正在探索落地这一技术,这将对传统跨模计算技术产生颠覆性突破。

未来,我们将持续探索更多创新技术的可行性和落地方案,拓宽数据库应用的广度和深度,为更多企业的数字化转型提供有力支撑。

国产数据库突破之路

《湾区科技评论》:近几年,国内整体数据库的发展情况如何?有哪些重要的瓶颈需要突破?

陈志标:从商业角度来看,国内的数据库生态圈是繁荣的,据不完全统计国内数据库产品数量有200多款,但反而观之,繁荣的背后也存在着瓶颈制约:首先,在高端核心系统场景中,目前仍以国外数据库为主流,主要原因在于国产数据库的内核性能及高可用保障能力不足,无法做到1:1平替;此外,核心系统对于业务连续性的要求十分高,目前长期依赖于Oracle的共享集群产品,国产数据库尚未在高端领域形成成熟且稳定的高可用解决方案。

更为重要的是,随着大数据、物联网、AI等技术的飞速发展,数据呈现了大规模、多样性、极速增长的态势,对数据处理的新鲜度和融合性提出了更高的要求,例如中国数据量规模2027年预计达到76.6ZB,相当于足以存储约38万亿部2小时的高清电影,基于传统计算模式开发的产品难以应对庞大的计算体量。新应用场景是国产数据库需要重点关注和长期投入的领域,更是实现国际引领超越的关键。

《湾区科技评论》:能否介绍下YashanDB以自主可控的大数据技术破解关键领域“卡脖子”方面的优势是什么?

陈志标:数据库内核就像汽车发动机,承担着“心脏”的作用,决定着系统的性能和稳定性。只有从源头解决内核“根技术”,打造核心技术和产品驱动型基础软件,才能根本解决“卡脖子”问题。

崖山数据库系统的产品优势,正是来源于研发团队在内核方面的创新与突破。崖山数据库系统YashanDB的内核代码均为自主编写,选择从零构建第一行代码,经权威机构测试,内核代码自主率100%。得益于自研的技术路线,一方面能够不断引入新理论、新算法,在技术上开展更多的技术创新以及工程实践,实现技术引领,例如,我们结合多核并行计算,原创性地采用细粒度多版本并发管理机制、自适应异步事务调度方法等,使得单机内核性能方面实现突破,基准测试TPC-C下是国际主流商业数据库的1.3倍;另一方面,由于对底层机制和核心技术的完全掌控,可以快速响应客户不断变化的需求。

在从根本上解决卡脖子这一难题之外,针对共享集群——这一长期为国外厂商所垄断的“制高点”技术,我们经过原型验证和多次迭代,在去年成功推出共享集群产品,打破技术垄断,在高效处理的数据规模、事务处理吞吐量和高可用能力等关键指标实现与国际标杆Oracle并跑并迈向领跑;在高可用方面,YashanDB共享集群的RPO(数据丢失量)为 0,能够确保故障切换不丢数据,故障恢复时间 RTO 小于 20 秒;同时,具备透明多写的能力,替换过程业务不中断、上层应用无改造,完全满足核心系统对高可用的要求。当前产品也已经应用在金融、运营商等国计民生领域中,有效降低“断供”风险,真正实现高端应用场景1:1平替。

助力解决国家关键领域“卡脖子”难题,需要在数据处理领域提供具备“根技术”能力,且真正提供高端应用场景1:1平替的解决方案。

《湾区科技评论》:在发展基础软件方面,企业、高校、政府分别扮演着什么样的角色?如何共同推动这一领域的发展?

陈志标:高校之优势集中体现在理论创新及人才培育。相对而言,企业端则更侧重于对接并拓展多元化的应用场景,从而能够更为迅速地推动理论研究成果向实际应用转化。在此过程中,政府扮演着产业布局规划者的角色,并提供全面的政策扶持,以促进产业的稳健发展。

深算院作为新型科研机构,致力于打破一直以来存在的理论研究与工程转化之间的鸿沟。在理论创新及人才培育方面,深算院培养了一批高端的数据库理论和工程人才,为国产数据库长远发展厚植一方沃土,同时与多所高校合作,将自身积累多年的理论与工程经验对外输出;在场景和应用落地方面,秉承“理论和系统并重”的初衷,我们打通科研成果“最后一公里”,基于原创理论开发实用系统,为行业提供领先自主、拥有根技术的原创产品和解决方案。得益于深圳“双区驱动”的重大历史机遇、优质的创新土壤、良好的“产学研用”生态基础,优质的营商环境以及一流的企业发展配套服务,深算院在发展之初获得了政策、资金和人才等等各方面的扶持,才能在短短几年间取得突破性的科研成效以及商业落地。未来,深算院将朝着建设世界一流的计算科学基础研究机构的目标,继续以新模式和新速度高速稳健发展,打造中国原创的基础软件品牌。