墨天轮发布中国数据库行业报告,新一代工业实时数据库驶入快车道

2023年立春之际,知名数据库社区墨天轮发布《2022中国数据库行业年度分析报告》,其中《实时数据库》部分详细介绍了2022年度实时数据库行业的发展背景、关键技术、应用特点和市场趋势。作为世界及中国唯一的工业级数据库,独具工业气质的实时数据库正在驶入技术创新与市场发展的快车道。

众所周知,随着互联网、大数据、人工智能等新一代信息技术的创新聚变,数字化产业正在成为全球经济新的驱动引擎,以数据为核心生产要素的增长变革,成为面向网络化、智能化方向提质增效及重塑核心竞争力的基础。随着数字化转型深入推进和数据量的爆炸式增长,产业对数据库的需求发生了革命性变化。

技术发展让数据创造无处不在,从企业应用到个人应用和万物互联,来自新时代的数据库挑战持续增长:数据存储从TB级别、PB级别增至EB级别;海量并发从企业内部数百至数千并发到互联网模式下百万级至亿万级并发;新的应用场景要求数据库具备弹性伸缩能力;各行业在加速信息化基础设施的分布式建设;此外端边云协同、AI融合、软硬结合、数据安全、隐私保护等都是重要挑战。当前数据库技术得到创新发展并发生着颠覆性变革,从结构化数据到非结构化数据,从关系型到非关系型,从集中式到分布式,从闭源到开源,“One size fits all”的时代已经过去。

全球知名咨询公司Gartner 2021年企业软件全球市场报告显示,数据技术已成为企业软件中最大且增速最快的赛道,未来5年复合增长率将达到17.5%;2022年5月发布的市场报告显示,2021年全球DBMS(Database Management System,数据库管理系统)市场规模达到800亿美元,同比增长22.3%。在快速发展中,数据库领域的技术和市场也发生着巨大变革。

中国的数据库市场是全球市场的重要组成部分,从技术到商业,中国数据库产业正在发生快速而深远的变化,为了记录时代变革、洞察技术趋势、传递产品价值,我们组织编写了本报告,希望能够为数据库产业的产学研用提供参考,为行业发展作出贡献。

附:中国数据库行业年度分析报告2022-实时数据库

和通用数据库及传统实时数据库的不同之处在于,新一代实时数据库技术不止是数据库,而是工业技术、实时技术、数据库技术以及先进的IT技术深度融合的产物,是一套包括数据采集、数据存储、数据计算和数据可视化的工业数据管理系统,管理工业数据从生产到应用的全生命周期,是工业信息系统的工业数据管理底座,是工业数字化、信息化和智能化的基础核心基础软件。

11.1实时数据库是工业数字化建设的核心

实时数据是工业名词,统一表示强实时属性工业系统、过程或行为随时间变化的数据。作为数据库系统发展的分支之一,实时数据库主要但不限于不断更新的快速变化的实时数据及具有时间限制的工业事务处理。因此,和其他通用数据库不同之处在于,实时数据库技术不止是数据库,而是

工业技术、实时技术、数据库技术以及先进的IT技术深度融合的产物,是一套包括数据采集、数据存储、数据计算和数据可视化的工业数据管理系统,管理工业数据从产生到应用的全生命周期,是工业企业信息系统的工业数据管理底座,是工业数字化、信息化和智能化的基础核心软件。

实时数据库专门解决工业实时数据采集、存储和应用问题,融合各种先进技术和优化架构设计,通过提高效率来处理大规模实时数据的同时带来系统性能的提升,包括更精准的数据采集、更高的容纳率、更快的大规模查询、更好的数据压缩以及更有效率的数据应用支撑。

新一代实时数据库管理系统创新融合了工业数据采集技术、中断触发技术、自动化控制技术、内存库技术、关系库技术、行列存储技术、多核并行技术、安全通信技术、高效实时检索技术等等,在国外垄断的核心技术领域突破了卡脖子重围,实现了完全的自主创新,通过用户共创,完成了大量实践和长期检验,在提高工业数据管理能力的同时,为企业数字化、信息化和智能化做出了重大贡献。

11.2实时数据库发展历程

实时数据库最早期的研究始于上世纪80年代的英国,四十余年发展过程中,经历了早期实时数据库、标准实时数据库、新一代实时数据库三大阶段。

早期实时数据库阶段(1980-2000)的实时数据库代表产品为西门子、ABB等工业自动化厂商,该类产品当时较好地解决了生产线实时数据采集、就地存储的问题,但在厂级异构数据采集、数据汇总集中和海量数据容纳、大规模复杂查询及灵活数据应用支撑方面存在明显不足。

标准实时数据库阶段(2000-2020)以OSI、Instep、庚顿数据、麦杰等为代表,该阶段技术脉络逐步清晰、解决方案架构趋于稳定、应用领域极大丰富,进一步拓宽了数据采集范围,同时极大提升了数据容纳能力和支持复杂业务的查询计算能力,成为以流程工业为代表的生产监控领域标准配置。

中国实时数据库起步较晚,但21世纪初由于国家层面将实时数据库作为与操作系统同一级别的软件鼓励支持,同时赶上了20余年来中国流程工业声势浩大的信息化浪潮的推动,中国实时数据库产业得以快速高质量发展,以庚顿数据为代表的实时数据库厂商开启了新一代实时数据库阶段(2020至今),该阶段由于数据规模爆炸增长、数据采集难度提高,工业企业深水区的数据应用进入全面数字化和智能化阶段,大型工业集团化应用日益增多,工业企业生产连续性、工业安全以及智能化应用需求不断提升,实时数据库技术路线呈现多样化和融合化发展。

随着全球市场格局剧烈变革,工业数字化转型不断进入核心业务深水区,我国工业企业进入通过新型工业技术和数字化技术实现高质量和低碳化发展目标的发展新阶段,5G、云计算等新兴技术快速发展,传统实时数据库的应用系统纷纷优化升级,我国实时数据库产业正在迎来重大发展机遇。

11.3实时数据库关键技术研究现状及问题

实时数据库管理系统作为涵盖工业数据采集、数据管理及数据应用的软件系统,其整体架构与技术路线不断深化发展,在端云采集同在、集控式与分布式并存、边缘计算与云平台共处等应用趋势驱动下,国内外在海量数据存储机制、实时事务管理策略、分布式并行处理技术等关键技术领域的研究一直火热,其理论更为成熟,实践场景更为丰富,以流程工业为代表的核心应用领域成果尤为突出。

(1)海量数据的存储机制

实时数据库包括内存数据库和历史数据库,内存索引机制和外存索引机制必须深度融合才能真正提升读写性能,满足不断升级的应用需求。ARTs_EDB系统提出兼有AVL树和B+树优点的SB树作为其内存索引机制,并利用基于时间点的方法实现了一种新的时态索引技术。GDREAL实时历史数据库针对性能瓶颈,提出新的储存机制——Z树,有效提升了磁盘存储性能。由于高效的查询算法对于内存实时数据库的性能至关重要,专口面向工业控制领域数据和业务的哈希索引算法及接口设计具有更强的适应性和更高的效率。此外,考虑到实时数据库基于测点的存储结构特征,综合B+树与哈希索引与一致性哈希索引的方法能够有效提升数据查询效率。

实时数据库在组织存储文件格式时,极其重视数据压缩算法的研究,以应对实时数据库在生产环境面临海量数据存储的挑战。在实时数据库领域中,数据压缩技术主要有两类,无损压缩和有损压缩。无损压缩以通用压缩理论为基础,采取哈佛曼算法等经典的压缩算法,如InStep公司的eDNA实时数据库;而有损压缩则更多地考虑了工业实时数据的特征,采取特殊舍点的算法,著名的有损压缩算法是OSI公司的PI实时数据库使用的旋转门压缩算法;麦杰数据库在时间维度上

有更全面考虑,综合定制采样频率、例外报告、和矢量线性压缩三种措施;庚顿数据将数据压缩划分为存储前的定制采样频率、例外报告,和存储后死区压缩算法、可行域有损压缩算法(自研)、两阶段无损压缩算法,综合压缩比超1000:1。

此外,低成本的存储是实时数据库需要解决的一个主要问题,对数据进行分级存储,从使用不同存储介质,以及减少数据的副本数等方面,解决如何在保证数据查询性能的前提下,降低数据的存储成本。对于实时数据库来说,多级存储表示:CPU寄存器->内存->SSD固态硬盘->HDD机械硬盘->磁带/光盘存储,实时数据库把各种不同存储容量、存取速度和价格的存储器按照层次结构组成多层存储器,并通过管理有机的组合成为一个整体,使所存放的数据按照时间层次分布在各种存储器中,同时随着数据不断增长将数据从高速存储向低速存储持续迁移,在每一级存储可以挂载多存储路径,实现存储空间的在线扩容。近年来非易失性内存等信息存储硬件开始普及,基于这类新型硬件的实时数据库的内部处理逻辑、算法等需要重新设计,实时数据库技术可借此进一步发展和完善。

(2)实时事务的管理策略

事务是指必须原子地执行的一个或多个数据库操作的集合,集合中的所有操作或者都执行,或者都不执行。实时数据库的事务则兼具传统数据库事务与实时任务两者的特征,必须同时实现数据一致性和定时限制。因此,实时事务的管理策略与传统事务存在显著差异,通常包括事务调度和并发控制两项内容。

事务调度的目标是满足定时限制事务的比率最大化,即让尽可能多的事务处理在截止期之前完成。目前国内外的实时数据库中最为常用的是基于优先级的事务调度策略,包括基于事务截止期来指派优先级的截止期最早最优先策略、基于空余时间(事务可推迟执行的时间估算)来指派优先级的空余时间最短最优先策略、通过价值函数来指派优先级的价值最高最优先策略、通过价值密度函数(事务期望化值与所需执行时间的比值)来指派优先级的价值密度最大最优先策略、基于事务执行历史日志的调度策略和广义截止时间最优策略等。上述事务实时调度策略有着各自的化势应用场景,但是能够结合国防军事领域特点的事务调度策略研究则相对不足。

并发控制的目标是通过规范多个并发事务的执行顺序来避免它们之间的相互干扰,防止数据库状态一致性的破坏。实现并发控制的传统技术包括锁协议、时间戳和有效性确认其中两阶段锁是最经典的锁协议之一,但是在基于优先级的事务调度过程中会产生“优先级倒置”等问题。为解决上述问题,高优先级两阶段锁对传统的两阶段锁协议进行了改进,在发生“优先级倒置”时能够中止低优先级事务而确保高优先级事务及时获得相应资源。分布式环境下的并发控制(分布式锁)目前尚没有特别高效的方案,国外分布式系统已经广泛应用的算法和实现包括Paxios、Raft、Zookeeper等。

(3)分布式并行处理技术

在当前最流行的分布式框架Hadoop中,不同的调度算法对于其性能有极大的影响。目前常用的作业调度算法主要包括先进先出调度算法、公平份额调度算法和计算能力调度算法,其中应用得最广泛的是先进先出调度算法。支撑Hadoop框架的两个核心技术是源自Google File System的HDFS和MapReduce。MapReduce模型适用于批量处理任务,但计算实时性不高。对于实时计算任务,流式计算框架拥有更为针对性的设计,典型地包括Twitter公司开源的Storm框架、Linkedi公司开发的Samza框架和UC BERKELEY大学研究的Spark流式框架。用于分布式环境下实时性要求严格而计算精确度要求稍低的应用场景。

然而,工业领域有着丰富的数据查询与处理场景,例如流程图监控页面的实时数据展示,面向报警管理与优化的数据挖掘分析等,需要系统能够同时提供分布式查询、实时订阅、实时与非实时并行计算等多种能力。如果简单地将上述并行处理技术进行集成和拼装,而缺乏对流程工业数据处理场景的深入分析,将导致系统复杂而低效,无法满足应用的实时性和可靠性要求。因此,该方向尚存在大量研究工作有待开展。

分布式实时数据库的服务橫型包含分布式存储服务、分布式计算服务和网络通信服务三大分布式服务群。同时,基于工业互联网的跨地域数据传输与服务接口访问使得分布式实时数据库的开放性日益提升,信息安全问题也逐渐成为分布式实时数据库系统设计过程中必须重点考虑和投入的方向,对应的网络信息安全和用户访问认证技术成为隔离系统外部和内部的重要安全屏障。除此之外,组态管理服务用于对系统组态配置信息和工厂模型信息迸行统一管理和发布。事务管理服务参与全生命周期流程,将全局任务与分布式服务节点进行紧密连接,确保任何涉及多服务节点的任务能够完整、有序、正确地执行,并在调度过程中尽可能满足其实时特性。

进入二十一世纪,随着国家鼓励发展实时数据库等基础软件的鼓励以及数字化转型、双碳目标等国策的出台,国内实时数据库系统研究和应用不断深入,国产实时数据库软件取得长足进展,其功能和性能在电力、化工、冶金、烟草、军工、新能源等众多行业的重大项目中不断得到验证,逐步实现了对国外软件的赶超。

虽然实时数据库管理系统属于核心基础软件,但目前大部分国产实时数据库软件针对自主可控CPU和操作系统进行优化不足,软件在一些功能的技术实现上使用通用但更依赖CPU计算能力的方法,CPU、IO设备等硬件能力不足。因此,如果想要真正满足大工业市场海量传感器数据实时存储和处理的需求,尤其核电应用等态势感知、装备运行状态监控等高级数据应用领域的特殊需求,目前大部分国产数据库管理系统还需要更进一步。针对以上问题,以庚顿数据为代表的实时数据库厂商例近年来不断突破创新,海量顺序和乱序数据的高性能写入、海量实时和历史数据的原始及聚合查询、广泛适配国产硬件设备和操作系统以及如何实现实时数据库更高可靠性和安全性等领域均进行了大量深入的研究与创新应用,取得了丰硕的成果和市场回报。

11.4中国实时数据库市场发展趋势

对大型工业企业而言,精准、快速掌握数字化转型进程中产生的各种数据和信息,可以进一步保障生产稳定、业务优化、设备健康和能耗降低,而这些正是企业获得高质量发展的关键驱动力。充分发掘工业数据价值的企业,才能最大限度释放工业数据生产力,帮助工业用户在激烈的市场竞争中抢占主动、获得先机。

随着5G技术、高性能电池技术的发展和低成本传感器的普及,工业数据呈现爆炸式增长,流程工业的工业数据资源日益丰富,但企业对数据的掌握和应用没有跟上数据增长的速度,大部分工业数据并没有得到有效的共享和利用,数据收集和整理的时间占比过大,真正被发掘并运用到企业的日常运营中的数据不到三分之一。因此,流程工业迫切需要海量工业数据的整体解决方案,更加高效地、精准地、实时地采集需要的工业数据,同时对这些数据进行整合分析并及时共享给各业务部分的数据使用方,以期创造更新的增长极。数据已然成为现代流程工业数字化转型的核心,真正实现工业数据的采集、存储并帮助建立工业数据分析和应用平台挖掘工业数据价值,成为驱动实时数据库行业面临的挑战和机遇。

实时数据库开发的理念是为了实现工业监控及工业数据分析应用,其数据读取以及存储压缩能力作为核心功能一直在升级迭代。为满足工业企业更高标准要求,突破原有应用场景限制,开辟新的增量市场,实时数据库厂商需要在技术层面上需要实现更多种信息技术的深度融合,尤其要和边缘计算结合互补;为了降低企业应用难度,提升使用感受,需要高度统一协议接口,进一步提高系统一体化水平。

(1)融合与统一,实时数据库技术创新不能停

与各类信息技术的高度耦合,边缘计算将算力下沉。实时数据库当前采集频率已经突破毫秒级,超越了多数设备数据采集需求的上限。虽然性能已经达到单体设备采集标准,但是设备数量未来几年将快速增长,与物联网、云计算、边缘计算等不同技术横向融合是提升自身价值的重要途经,其中以边缘计算与实时数据库的相关性最强。当数据过于庞大,集中化的处理方式很难响应实时的数据分析需求时,需要通过边缘设备实时响应的处理并反馈,采取这种分级处理的方式能够有效提升时效性数据的价值,同时减轻存储系统的负担。尤其在离散制造业当中,行业碎片化程度高且呈横向分布,应用边缘计算技术可以更契合离散制造系统实时工业软件开发。

新一代实时数据库正在全力支撑和加速流程工业数字化转型升级

系统一体化程度提升,软件协议接口统一化。硬件上,设备由企业采购,但是不同品牌的智能制造设备数据测点反馈的数据真实性、时效性会略有不同;软件上,目前不同实时数据库产品适用的开发平台或多或少存在限制,接口标准众多难以高度统一,激化设备和软件数据对接问题。对实时系统的一体化成为企业、设备提供商、实时数据库提供商的统一需求。

(2)更强大,更成熟,实时数据库产品升级迫在眉睫

功能升级,应用场景增加。实时数据库目前主要还是应用于传统大型工业例如火电厂、核电厂、炼钢厂等,这些行业实时数据的并发量和处理量已经处于金字塔顶端,印证了实时数据库核心功能已经具备“向下”兼容的能力,例如汽车、家具、食品等行业。可结合云平台技术,突破现场控制监控的瓶颈,赋能于更多的场景当中。最大程度实现工厂自动化生产,实现无人化“黑灯工厂”减少企业人力成本,提高生产效率。

更完整成熟的实时数据库产品。相较于通用的时序数据库,完整的实时数据库产品更适用于工业制造领域。制造业企业与互联网公司相比,缺少专业研发优化人员,更多是使用者的身份,对产品的首要需求是高稳定、可维护。工业智能生产采用的架构比较类似,拥有相对成熟的体系,标准化、成熟度高的实时数据库产品更契合工业需求。成熟的实时数据库产品需要提供标准的数据挖掘模式,对于基本的过程参数、不同工序之间一些标准的产品无需企业进行进一步开发应用。

(3)市场规模急速膨胀,资本进入最佳时机

中国工业实时数据库市场经历了二十多年的发展,至今一直处于稳步增长状态,但是增速较为缓慢,应用动机基本出于行业领头企业“尝鲜”使用、制造标杆工厂的想法,未能得到深度开发应用,但是在工业数字化从口号进阶至国家重要发展方向后,给市场注入一阵强心剂。工业场景中,80%以上的监测数据都是实时数据,过去企业没有重视保存历史数据,如今对数据价值挖掘及应用的需求和实际使用的情况之间存在巨大缺口,市场有很大上升空间,预计至2025年达到269亿元的规模。以数据为核心竞争力的意识将在制造业中蔓延渗透至大大小小各个细分行业,未来大量应用实时数据库成为必然趋势。

(4)产品国产化替代大势所趋

随着大数据时代的来临,数据成为企业的重要战略资源,数据的隐私性和安全性是企业在选择实时数据库时的重要考量因素。特别是工业数据,具有其他行业不具备的特征。与互联网大数据不同,工业数据虽然规模庞大,但是大多为有效数据,数据价值密度高,对企业而言具有绝对的商业价值。工业数据主要来源于各类传感器设备对环境和生产流程的监测,多种类数据并发量巨大,数据类型异常庞杂。工业制造是国家发展的重要依靠,特别是在高精尖领域,对数据泄露采取零容忍态度,数据机密性强。

中国实时数据库研发起步较晚,初期阶段更多借鉴国外的优秀技术和经验,导致海外品牌在中国市场中占据了先机。近几年在产品性能方面,本土产品奋起直追,甚至实现弯道超车,却在营销层面存在薄弱环节,暂未打破垄断局面,但海外产品灵活性不足及数据隐私两个主要驱动因素暗示着国产化替代浪潮的到来。在保证数据安全的前提下使用性能优秀、维护便捷、成本更低、接口协议更开放的产品是每一个理性的中国企业都会做的选择,本土化产品的迅速崛起让中国企业看到了新方向。

(5)头部效应驱动实时数据库再上层楼

工业实时数据库不同于时序数据库等通用数据库,在生产线的运行时间可长达数十年,且价格高昂,是企业实时系统的核心构成。在初期选择阶段企业会进行再三考量,安装使用后不会轻易更换。替换周期长、成本高或造成未来市场产生头部效应。对实时数据库有迫切需求的更多是中大型工业企业,产品应用一步到位和可持续运行是首要考量因素。实时数据库未来的市场将属于拥有绝对产品竞争力的优秀企业。

但目前市面产品质量层次不齐,市场中得到认可的产品来自十几家不同的实时数据库企业,由于缺乏统一的对比标准和长时间的调教优化,部分国产产品在基本功能上仍存在缺陷。例如在数据点采集存储方面,不少厂商在数据采集过程中存在数据不稳定、数据断包的现象;服务器兼容性、可靠性和稳定性不足,导致经常性停运维修;数据检索能力弱,进行历史数据定位提取时发生目标属性类型不匹配的情况。

实时数据库是典型的长期主义市场,爬坡周期长,产品成熟慢,用户共创程度高,成熟稳定性要求高,需要不断优化调节和岁月的沉淀。研发具有自主知识产权的实时数据库系统具有重要的意义,实时数据库系统的设计与结构的开发尤为重要,开发流程繁琐,需要时间的沉淀来对产品进行反复的优化调试。前期设计开发包含概念结构设计、逻辑结构设计、物理设计,对接入层、存储层、计算层、平台层以及应用层多层面的开发。后期运维调试阶段,则需要根据行业特定需求进行实时数据库优化调整,产品的成熟度与工程支持人员的专业度及工业知识沉淀程度决定维护调试周期的长短。

【来源: 微信公众号“庚顿数据” 】