随着数字经济发展,各行业数字化转型的深入和万物互联的发展趋势下,“数据即资产”成为企业共识,数据价值挖掘成为企业关注的重点。与此同时,随着企业对决策与分析时效性要求的日益提升,能够传递实时、可用信息的“热数据”价值逐步凸显。
过去由于技术发展限制,虽然企业产生了大量的“热数据”,但却无法充分发挥其价值。因此,让“热数据”直接产生价值,解决业务场景下海量数据实时处理和智能决策的技术,成为企业在数字经济发展中提质增效高质量发展的关键。
提到大数据处理技术,不得不提在数据实时智能处理领域持续深耕并纵横向前的邦盛科技,其核心技术之一就是能够实时快速、高并发处理数据的流立方技术,特别是在海量数据规模大、分析延时短、复杂事件或复杂指标、智能化决策及时序数据等典型特征的行业场景中,通过实时感知、识别和智能决策,充分发挥“热数据”即时、可用的业务价值,帮助企业更好地实现精准预测、瞬时决策、降低业务成本、提升服务质效。
又快又智能的人工智能才是真正的人工智能。邦盛科技是实时智能决策技术的领军企业之一,其自研的实时智能决策与分析技术在数据规模量大、超低延时性要求和复杂事件决策等场景中给企业带来了巨大的业务价值,并在数字金融、智慧交通、电子政务、信息通讯等领域实现了落地应用。
王新宇博士表示,随着数字经济发展,新基建的规划部署在各行各业深入推进,实时智能决策技术能够很好地同时满足海量数据实时处理和智能决策的复杂计算要求,并与具体业务场景相结合,真正赋能行业业务价值提升,不仅智能化,更要实时性。未来,实时智能决策技术覆盖的业务场景会越来越广,实时智能决策技术将大有可为。
在时效性和智能化兼备的场景下,“热数据”价值得以体现
问:您认为应该怎样理解“热数据”?
王新宇博士:数据从产生开始,它的应用价值就在随着时间流逝呈指数式下降。数据的价值,就像是一座有无数宝藏的矿山,对数据的洞察力、提取力和分析力决定了能挖出的是钻石还是煤炭。数据刚刚产生时热度最强,也就是“热数据”,通过对数据的及时处理、分析,最能够体现数据在应用上的价值。
刚刚在线上产生的数据,需要结合历史数据,才能对它进行实时的价值判断,要让数据分析兼具准确度和速度,这就好比鱼和熊掌兼得,难度非常大。实时智能处理是实现“热数据”价值最大化的唯一途径,可以将实时采集到的“热数据”和历史数据相结合,进行实时处理和实时分析,并基于处理和分析结果给出智能化决策。
许多业务场景需要基于单个行为对整体意图做出判断,并快速做出处置。这些业务场景往往对时效性要求很高,比如互联网/移动互联网、物联网等应用场景中,用户体验提升、个性化服务、智能分析、事中决策等,由于业务复杂度较高,如何能快速计算出支撑业务中的复杂指标成为实时业务场景中的关键因素。
问:具体到应用中,实时智能决策技术是如何释放“热数据”价值的?
王新宇博士:和时间赛跑,邦盛科技的技术思路,绕不开对时间和速度的要求。邦盛的流立方在其中扮演的角色是一个实时大数据处理引擎,兼具数据的时间跨度和新鲜度,还有计算速度,解决数据倍增、数据处理时效性差和数据处理毫秒级需求的问题。
比如,在物联网环境中,各个传感器产生大量数据,这些数据通常包含时间、位置、环境和行为等内容。由于传感器的多元化、差异化及环境的多样化,这些数据呈现出鲜明的异构性、多样化、非结构化、有噪声、高增长率等特征,所产生的数据量之密度、实时性之强、价值密度之低是前所未有的,这对计算系统的实时性、吞吐量、可靠性等方面的要求非常高,既要有智能化的判断和分析,又叠加了时效性特征。
在金融领域的业务中,往往会产生大量数据,这些数据的时效性很短,每时每刻都有大量的数据在各个系统间流动,并需要实时计算。同时金融系统与其他系统也有大量的数据流动,这些数据不仅有结构化的数据,也有半结构化和非结构化的数据。通过对这些大数据的实时分析计算,发现隐含于其中的内在特征,可以帮助金融机构进行实时的智能化决策。
以全国最大的收单机构为例,每年有1300多亿刷卡流水,45亿张银行卡,峰值5万TPS,近千个规则模型的超大数据量,同时要求在银行卡刷卡请求时,50毫秒内分析完成该卡过去1年交易行为的超高实时性。邦盛科技的这套基于“流立方”的实时智能决策技术,可以做到每一笔刷卡瞬间在10个毫秒内完成近千个规则模型的全年刷卡行为分析计算,事中智能识别风险并做出相应的风险处置决策。
批流结合的实时智能决策技术,横向来看,可以应用在金融、交通、通讯、政务、公安等各个行业。纵向来看,每个行业的报表数据实时处理、可视化分析、精准营销、合规检查等也都需要这项技术。
邦盛科技实时智能决策与分析技术释放“热数据”价值
问:邦盛科技的实时智能决策与分析技术体系是怎样的?解决的主要问题是什么?
王新宇博士:流批一体的概念提出最早是在2015年,但那时真正应用流批一体的落地案例极少。这是因为流批一体的大前提是需要统一的计算引擎,流计算和批计算从计算方式、支撑模块、资源调度策略到流程规划等都存在差异。因此,流批一体融合存在不少技术问题需要解决。
相较于流计算和批处理分离的系统架构来说,流批一体重点关注数据源的统一、开发的统一、计算的统一、存储的统一,实现技术栈的收敛,减少开发和运维成本,消除重复的计算框架带来的逻辑不一致性。
从整体架构来看,我们的流批一体实时智能决策与分析技术体系将常见的数据资产分为四层,并提出了对应的三层数据处理架构,以知识为媒介,揉合流处理、批处理、决策等多种技术体系,是一种面向业务的流批一体的数据处理体系架构。
这项技术降低了流批结合模式的开发和运维成本,也进一步拓宽了实时计算的应用范围,为事件驱动型应用及高实时性的数据统计分析型应用提供了高效的计算模式,尤其是在对时效性非常关注的智能化判断和分析场景下,这套技术体系具备独一无二的竞争优势。
问:市场上已经有一些开源框架能解决实时数据处理的问题,邦盛科技为什么要选择自主研发流立方?
王新宇博士:一般公司都是基于开源架构进行增强,然后产出产品实现商业化。而市场上的开源框架大部分是国外的技术产品,如果我们都基于国外的开源框架基础上搭建实时数据产品体系,实时数据处理将成为国内卡脖子的技术难题,所以我们开始自主研发构建基础平台,彻底实现实时数据处理基础平台国产化,让我国能够拥有自主研发的实时数据处理技术底座。
第二个原因是,传统开源框架无法适配企业既快又灵活的实时决策需求。当前实时计算的框架分成两个流派,一个是“原始态”,比如Oracle的数据库,拥有灵活的特性但是处理速度较慢;一个是“最终态”,比如Spark、Storm,处理速度快但是不够灵活,无法满足在实时决策中进行实时智能调整和适配要求。
为了满足这些要求,我们提出了“时序中间态”理念,在技术研发上投入五年时间和上亿资金,最终形成流立方核心技术。流立方结合了“原始态”和“最终态”两派的优势,每次计算都能够进行实时数据的灵活重组,性能上提升了几十倍,任何时间、复杂事件的中间段都可以在毫秒内吐出结果,既迅速又灵活,遇到复杂因子及时间序列,流立方依旧可以做到毫秒级产出结果。
问:流立方在技术上是如何实现性能提升的?
王新宇博士:流立方是大数据实时智能处理平台,是基于“时序中间态”理念进行研发的,也就是在数据流转过程中嵌入流处理引擎,对所有流过的数据进行实时处理,处理的结果是个中间结果。
比如同样计算三个月交易平均额,Flink是直接计算最终三个月交易结果,如果要求得到两个月交易数据就需要重新计算。而流立方把时间切成了细碎的“切片”,可以计算出1小时内、1分钟或者500毫秒“切片”的交易平均额,这就是中间结果。目前流立方数据集群吞吐量可达到200万笔每秒,当要求计算出任何一个时间段内交易数据时,流立方都可以在微秒时间内对“切片”进行动态重组,所以计算1年内和计算3年内平均交易额都可以在同样时间内得到结果。
流立方高性能的数据集群可以满足数据量大、数据新鲜度高、事件/指标复杂、决策智能化等特征,通过我们的大数据实时处理平台可以快速地、实时地采集、加工、处理多源数据,解决开源流数据处理技术无法解决的问题,为各领域大数据实时计算处理提供底层的技术支撑。
问:您介绍了很多邦盛科技实时智能决策与分析体系的特点,邦盛科技是否有考虑通过自身优势进行更多的生态合作?
王新宇博士:在生态合作方面,目前我们以流立方和三核智能作为底层基础决策软件和决策引擎,进一步来构建上层的业务应用产品生态和服务生态。根据不同的行业设置了不同的事业部,对业务占比较大的行业需求,生态合作情况较少,主要由事业部来实现软件的实施落地;而业务占比较小的行业事业部,会寻找有行业know how的合作伙伴,通过提供技术底座支持行业应用的方式,赋能合作伙伴,我们实现作为实时处理技术底座的价值,合作伙伴实现行业自动化的价值。
在未来,我们也会考虑和优质的合作伙伴进行投资并购,结合公司的整体运作和业务布局实现更加深入的合作,为企业提供更符合需求的定制化解决方案。
国产化和产品化是实时智能决策技术的发展重点
问:结合邦盛科技过往的案例实践经验,您认为实时智能决策技术要服务好客户,有哪些关键能力要求?
王新宇博士: 实时智能决策技术的应用对于平台的性能、模型的准确度、功能的完善性、平台的易用性等几个方面都有要求。
平台的性能体现在吞吐量上。2015年我们完成了流立方的产品研发,之后凭借流立方为核心的实时处理解决方案拿下了全国最大收单机构的招标项目。该项目要求在50毫秒内实现近一年的重大行为回溯,与其他国外老牌厂商提出的解决方案相比,我们的解决方案性能大大提升。
平台的决策效率还受到决策模型准确度的影响,通过平台输出结果的误报率和漏报率就能看出模型的准确程度,那么模型设计阶段就极为关键。如果能将图决策纳入决策模型考虑范围,可以大幅提升实时决策引擎的性能,也是提升平台决策效率的方式。
功能的完善性是建立在厂商的服务经验基础上的。当下企业要求实时智能引擎能够匹配复杂的业务线,那么厂商对于复杂业务的理解程度和实时智能技术对多条业务线的支持能力决定了平台功能的完善性。
平台的易用性是要降低业务人员的平台使用成本。以往业务人员想要调整模型时需要找到IT部门,运用历史数据对模型进行反复训练,后续还要上线和确认模型,整个周期需要2周到一个月时间。而平台的易用性就体现在决策引擎是不是面向业务人员的,尽量让业务人员使用拖拉拽的方式就能管理和调整模型,训练好的模型在少量技术人员的帮助下就能上线知识应用平台,大幅缩减业务人员的平台使用时间,从而提升决策效率。
问:您认为实时智能技术未来的发展方向是什么?
王新宇博士:大数据时代,数据是宝贵的资源,数字基础设施建设是支持国家数字经济高速高质发展的必要前提条件,随着新基建的规划部署在各行各业深入开展,企业内沉淀的数据量、业务系统的终端用户量都在呈现爆发式增长的趋势,很多大型企业尤其是国家的支柱性行业,对有效应对大规模、高时效、智能化等一系列的数字化技术需求将越来越旺盛。
从应用趋势来看,想要大规模应用实时智能决策技术,要保证技术已经实现高度的产品化。举例来说,特征处理、模型训练等底层技术产品化率较高,中大型客户对数据采集、处理、计算等基础功能需求最广,产品化率也因此不断提升,而面向应用价值的实时智能决策技术不容易实现高产品化率。随着技术不断积累和沉淀,决策模型的产品化率会逐渐提高。产品化是厂商期待实现的共同目标,但在实现产品化的同时也要保证对业务支持的灵活性,才能够应对当下日益精细化的市场需求。
未来数字经济建设中,很多企业需要通过场景感知,实时捕捉、识别和判断客户需求,实时从决策引擎中获取业务价值平衡决策,并通过集中的后台服务实时响应客户需求。实时智能决策与分析领域的提前布局,是很多行业、企业在数字化转型中实现高质量发展的关键举措。