近期,《晶报》探访并对深圳计算科学研究院进行了特别报道。深算院YashanDB技术总监欧伟杰接受采访,介绍了深算院的原创基础研究成果和人才体系,以及全自研国产数据库YashanDB在智慧城市数字孪生场景的应用推广,以下为部分报道内容。
三款核心产品的名字,源自南宋三场战事
但凡专业且抽象的事物,表述总会担心太过于晦涩难懂,于是,先说一个大家都懂的词:“卡脖子”。是的,相信这几年,大家对这几个字再熟悉不过了。
2019年4月13日,深算院在深圳大学揭牌成立,重点研究大数据领域方向的计算科学基础理论,把原创理论落地转化为实用系统,致力打造中国原创的基础软件民族品牌。截至目前,该院已开发并落地三款全自研的战略性基础软件产品——崖山数据库系统、采石矶数据质量系统、钓鱼城数据分析系统,并在多个重点行业领域落地应用。
数据库是什么?通俗理解,它是“放数据的仓库”。当信息世界里的数据处理量大了,就要对“仓库”进行有序管理。此前,国内同行产品纷纷“站在巨人肩膀上”,在国外软件企业提供的开源代码上进行再开发,加快产品上市速度,而深算院坚持自主研发,一步一个脚印。
数据库系统可以称为软件里的“重工业”,自主研发门槛高、周期长。为什么要坚持自主研发呢?基础研究处于从研究到应用、再到生产的科研链条起始之端,是科技创新的源头,更是整个科学体系的源头。深算院深知关键核心技术,更是要不来、买不来、讨不来的。加强基础研究,从源头解决关键技术问题,才能打好科技自立自强主动仗。
深算院崖山数据库技术总监欧伟杰列举了一个形象的例子:“如果我们将基础软件看做一棵‘树’,那么开源代码就是一棵‘树苗’,在开源基础上开发相当于把它‘移栽’过来,它的品种是什么以及未来生长的树冠有多大、能覆盖多大的面积,这是它基因里自带的,我们无法通过‘修剪’去改造它。但我们自己研发,就相当于自己去培育一个品种,我们可以决定它的基因,比如它的根扎多深、未来树冠有多大,这都是我们自己可以控制的。”欧伟杰表示:“目前的一些具体应用走开源代码的道路是没问题的,但在基础软件上,我们坚持用‘笨办法’,从自己开始做研发,希望它能够走得更远,哪怕它的时间长一点。”
深算院崖山数据库技术总监欧伟杰接受记者采访
正如印刻在深算院标志中的口号——“‘VENI VIDI VICI’(我来,我见,我征服)”那样,深算院的初衷是“征服数据,做改变世界的一些事情”。
深算院标志中心围绕着深算院口号——“VENI VIDI VICI”(我来,我见,我征服)
这样的精神同样体现在深算院的产品上。据介绍,“崖山”“采石矶”“钓鱼城”均由深算院首席科学家根据南宋三场保家卫国之战命名。其中,“崖山”以历史上宋元海战发生地为名,意在赓续崖山的民族气节和风骨,“采石矶”之战讲的是以少胜多的历史典故,希望继承迎难而上的胆识豪情,“钓鱼城”代表的是对抗外敌时的坚持顽强,是致敬不屈的先贤。通过三个典故,意在国产基础软件面临强大挑战的情况下实现全自研的技术和系统,在数据库领域重铸华夏辉煌,为数据管理世界性难题提供中国答案,凭借数据分析领域领先的技术实力改变世界大数据的发展格局。
500人团队,研发人员近八成
基础研究既是一次科学家满怀好奇心的探索之旅,也是一场“你有我无、我快你无”的激烈竞争。在这场全球参与的探索中,深算院的成绩斐然。
引人注目的崖山数据库系统,融入了原创的有界计算理论、近似计算理论、并行可扩展理论和跨模融合计算理论,实现国产高端数据库“从0到1”的全自研突破,经权威机构检测,内核代码自主率100%,从核心理论到关键系统均为中国原创、性能指标国际领先,成为国内率先实现自主可控技术突破的数据库系统之一。欧伟杰告诉记者,崖山数据库系统实现了从底层理论到系统工程的全链条基础软件研发,真正掌握核心技术。
加强基础研究,归根到底要靠高水平人才。作为一个有产品能力的基础研究机构,深算院利用多重渠道开展全球引才,在吸引人才时就注重吸收科学家和工程师。“最开始,崖山数据库系统的团队人员不到10人。随着系统起步,我们不断搭建团队,通过社招找到一些志同道合且具有丰富经验的业界专家,并通过校招吸纳青年人才,邀请他们一起来做产品,更重要的是通过成型的培训体系培养数据库人才。利用我们的培训体系对应届生或没有接触过数据库的人进行培训,引导他们上岗后不断学习,2至3年的时间,让他们能够承担一些任务。我们希望深圳能培养和吸引更多有志从事基础软件的年轻人才,让更多人了解到行业发展的前景和机遇。”欧伟杰说。
崖山数据库团队日常讨论
目前,崖山数据库系统已拥有300余人规模的老中青梯次结构的团队,深算院已建立起500人规模团队,其中研发人员占比近八成,汇聚了一批优秀青年科学家和工程实力媲美硅谷的系统开发人才,包括英国皇家学会院士1人、中国科学院院士2人、深圳市杰出人才1人、海外高层次人才5人、长江学者1人。值得一提的是首席科学家樊文飞院士于2019年当选为中国科学院外籍院士,2023年当选英国皇家工程院院士,他也是英国皇家学会计算机领域的唯一华裔科学家。
深算院展厅荣誉墙
五年来,深算院在SIGMOD、VLDB、ICDE、TODS等国际顶级期刊/会议发表/录用论文100余篇(含CCF A类超90篇),申请专利/PCT共141项,理论研究成果产出比肩全球任何一支大数据学术团队。
“数字孪生城市平台”让城市管理更精细化、智慧化
带着刻板印象,记者还是忍不住问:为何研究院会选址在商圈的一隅?欧伟杰笑着说,大众一般认为做研究的人喜欢“闭关修炼”,但其实深算院不仅要做研究,还要做产品。龙华科技创新中心位于配套设施完善的商圈内,这给予了深算院工作人员极大便利。例如,深圳北站的地理和交通优势,为深算院提供了便捷的区域连接和人员流动条件。同时,深圳北站龙华科创布局已经形成了强大的企业聚集效应,这有助于深算院在技术研发、项目合作以及人才培养等方面与周边企业形成良性互动,推动科技创新成果的快速转化。
一项重大原始创新背后离不开“板凳坐得十年冷”的坚持,而其背后稳定的支持机制和投入,正是“冷板凳”加温的热源。深圳市政府通过专项资金扶持,为深算院的科研项目提供了必要的资金保障,确保了研发工作的顺利进行。龙华区政府则提供场地等资源支持,有效解决了深算院在硬件设施方面的后顾之忧。
“在团队拓展初期,我们去学校校招,有的同学反馈没有食堂,龙华区政府了解到这一信息后,迅速在楼里建立了一个共享食堂,非常及时地解决了员工餐食的现实问题。”
随着区域数字化发展的基础越来越扎实,计算能力越来越突出,龙华区立足数字经济、数字城区、数字治理“三位一体”数字龙华建设实际,2023年11月,推出了全国首创“全域全信创”数字孪生城市平台。该平台基于鲲鹏处理器、银河麒麟操作系统等国产软硬件环境,采用全自研国产数据库崖山数据库提供事务一致性、复杂查询以及空间数据支持等能力,对接国产数字孪生引擎(SS Engine),为政务、住建、教育、医疗、应急指挥等关键领域提供了强大的数字化、智能化支撑,推动城市治理向智能化、精细化、高效化等方面全面发展,助力打造决策更科学、管理更精细的先锋城市。
欧伟杰进一步解释:“将建筑、道路、植被、水域、地下管廊等城市信息进行数字化以后,我们就得到了一个数字孪生城市,也就是一个与真实世界一模一样的数字虚拟城市,我们可以在这个虚拟城市中进行模拟、预判,以数字赋能助推城市精细化、智慧化管理。”他举例说:“近期深圳降雨较多,且偶尔出现瞬时降雨较大的极端情况,那么我们可以在出现类似降雨情况后,在数字孪生城市平台利用采集的数据和地理空间信息,从而迅速判断出哪个路口或涵洞可能出现积水,快速协调相应的政府部门前往现场进行处置,还可以通过导航提醒居民群众经过那段路的时候,可能会出现积水。如果是传统的方式,那么就需要人工对每一个路段进行排查。”
龙华区服务人口已接近300万,人口密度达到2.19万人/平方公里,远高于深圳全市8791人/平方公里的平均水平;龙华区数字孪生平台的总数据量高达3.6+亿条,还需支持1000并发访问以及二三维数据的管理和融合查询,这无疑对国产时空数据库统一管理的能力提出了极高的要求。崖山数据库团队凭借关键技术的突破与转化,在解决数字孪生背景下如何在数据库中实现高效查询与分析计算的问题方面,取得了阶段性的突破,为支撑龙华区数字孪生平台提供强大底层数据管理能力。龙华区数字孪生平台整合了全区的三维空间模型,汇集并融合了多源异构的城市运行全要素数据,为区内社会治理动态监测、预警、评估提供便捷高效、动态实时、精准可靠的信息服务。
城市数据的使用是一项创新性工作,在按下“快进键”的同时,也要系好“安全带”。面向智慧城市数字孪生,崖山数据库提供安全强大的空间数据、半结构化数据管理和计算能力。当前国际形势复杂多变,自主知识产权的核心技术可以避免对外部技术的依赖,完全把握技术方向,真正做到把信息安全的“房子建在自家地基上”。
数字化转型,更广阔的应用场景
崖山数据库始终致力于解决关键技术“卡脖子”难题,助力政府、国企央企的数字化转型,在各行各业的应用遍地开花。
据介绍,目前,崖山数据库系统已兼容适配国内主流软硬件生态环境,在金融、政企、能源、交通、大型央国企集团、线上零售等领域进行了深度的应用和推广。以能源领域为例,深圳燃气集团的客户信息管理系统原先采用某国外主流数据库系统,面临着数据量大、扩展困难,运维低效等问题,后选用崖山数据库系统实现无缝迁移,性能和成本方面均取得了明显收益。
值得一提的是,深算院与深智城、长亮科技、迪思杰DSG等应用厂商联合,基于崖山数据库系统打造智慧城市、金融核心、空间数据管理以及数据交互等行业数据管理解决方案,为重点行业不同核心场景提供数字化转型保障。
数字经济事关国家发展大局。在推动经济高质量发展、建设现代化产业体系的实践中,深圳市具有强大产业优势,拥有众多国际性数字经济知名企业、一流的第三方专业服务机构,在大数据产业发展上拥有强大的产业优势。大数据作为现代产业发展的关键要素,其在深圳这样的先锋高科技城市中的作用尤为显著。
要激活大数据新质生产力,欧伟杰表示,首先需要解决数据孤岛和碎片化问题。当前,各业务系统间的数据共享存在障碍,导致数据资源不能有效整合和利用,市民在办理业务时,常常出现“由于单位之间的数据不互通,业务无法办理”的情况。针对这个问题,崖山自主研发攻克异构数据有界加速技术,可以通过崖山数据库直接访问原有的大数据生态系统,并基于有界计算实现查询加速,通过“融通、集成、协同、再造”打造“整体政府”,将“信息孤岛”联结为“数据大陆”,使数据共享更通畅、协同更高效。
数据质量问题也制约大数据潜能释放。欧伟杰进一步介绍:“大数据作为新的生产要素,被称为数字时代的‘石油’。当前数据有两个方面的问题:一是质量比较差,因为大模型的训练除了需要大量的算力以外,还需要质量相对较高的语料,而现在普遍是由人工打标签、标注的方式来提升它的质量,成本高昂,效率低下,且数据质量参差不齐。在深算院,我们的采石矶系统就尝试通过结合人工智能和一些逻辑的方式,自动对语料打标签,在降低成本的同时,还能提高标注的准确性和一致性,从而提升数据的整体质量。这就好比数据是‘原油’,系统对其‘提炼’,形成标号的‘汽油’,才能满足特定需求。”
基础研究与系统研发并驾齐驱
数据多样性导致的融合计算挑战也不容忽视。深算院在跨模态融合计算方面进行了深入研究,旨在解决不同类型数据的整合和分析问题。通过跨模融合计算,可以实现面向多模数据的统一融合查询能力,以及实现更深层次的数据挖掘和知识发现,充分激活多源异构数据价值。
深算院正在朝着建设世界一流的计算科学基础研究机构的目标,在以新模式和新速度高速稳健发展。与此同时,深算院也大力推动基础软件产业生态繁荣发展,助力科技强国和数字中国建设。2023年11月,崖山数据库系统正式推出被称为数据领域技术“制高点”的共享集群技术,在高可用性、高扩展性、高性能等方面取得了突破,为国产数据库在金融、运营商等国计民生领域的应用奠定了基础。
欧伟杰表示,未来,深算院将继续坚持基础研究与系统研发并驾齐驱的创新模式,践行“四个面向”战略方向,集聚力量进行原创性引领性科技攻关,致力于打造自主可控的国产基础软件产品,以“AI+”赋能培育新质生产力,以科技创新为驱动,积极与大数据产业链上下游公司开展深度合作,共同推动原创基础研究成果的产业化落地,全力服务深圳市“基础研究+技术攻关+成果产业化+科技金融”全过程创新生态链,助力数字中国建设战略的实现,努力为国家高水平科技自立自强贡献力量。