OSDI '18重磅解密:蚂蚁金服实时金融级分布式图数据库GeaBase

当地时间2018年10月8日-10日,全球极富盛名的计算机学界顶级学术会议OSDI ’18(USENIX Symposium on Operating Systems Design and Implementation,简称OSDI)在美国加州卡尔斯巴德举办。


OSDI大会期间,在蚂蚁金服主办的专题研讨会上,主题为《GeaBase: A High-Performance Distributed Graph Database for Industry-Scale Applications》的演讲吸引了数十位来自全球的顶尖技术专家和学者,并引发了现场热烈的讨论。

蚂蚁金服集团计算存储首席架构师何昌华

图数据库“明星”——蚂蚁金服GeaBase

众所周知,近十年来,图数据库一直是业界关注的焦点,未来的前景也被普遍看好,其最大优点是通过节点和关联的数据模型去快速解决复杂的关系问题。毫不夸张地说,图数据库是为当前丰富、快速变化的互联网应用场景而生的,因为它非常善于处理大量的、复杂的、关联的、多变的网状数据,而且具备奇高的效率。

由于图数据库拥有独一无二的特性,因此它非常适合在社交网络、实时推荐、银行交易环路、金融征信系统等领域应用。基于此,蚂蚁金服前瞻性地在2015年成立了专门研发图数据库的技术团队,在仅仅3年多时间里,成功研发出具有高性能、高可用性、扩展能力强和极佳移植性的GeaBase。

蚂蚁金服平台数据技术事业群高级算法专家付志嵩

据蚂蚁金服集团相关技术专家介绍,GeaBase(Graph Exploration and Analytics Database)是蚂蚁金服完全自主研发的实时金融级分布式图数据库,目前,GeaBase不仅广泛应用于蚂蚁金服的生态体系内,而且已经商业化和技术对外输出,正与多家银行等企业开展合作。

蚂蚁金服平台数据技术事业群高级技术专家肖涵

GeaBase到底强在哪里?

据介绍,蚂蚁金服研发GeaBase的初衷是为了满足超大规模复杂关系网络在金融领域中的各类应用场景,既要支撑线上高并发、低延迟的实时查询需求,又要满足大规模模型训练的迭代运算。

GeaBase的技术架构

一起看看GeaBase的基本特性。

首先,GeaBase支持海量的数据。目前,GeaBase支撑着蚂蚁金服的多个关键应用场景,包括风控关系网络、资金关系网络,都达到百亿个节点、千亿条边的海量数据规模,其计算查询能力达到了非常高的水准。

其次,GeaBase拥有非常强悍的在线查询性能,支持高并发,且具备毫秒级的低延时能力。通过与Titan的对比,可以看到无论是延时还是吞吐量,GeaBase的查询性能都领先许多。

GeaBase还具备高可用的特性。其配置了多种容错机制,引入了多集群和多方位的监控体系,并配备了分布式架构的容灾方案,这一切都是为了保证高可用性。

蚂蚁金服还为GeaBase研发了灵活且可扩展的查询语言。另外,为了和开源结合,GeaBase还将支持Gremlin图遍历语言。

GeaBase的雄心:商业化和技术输出

据了解,GeaBase现在支撑着蚂蚁金服旗下支付的风险控制、反洗钱、反欺诈、反刷单、反套现、金融案件审理、知识图谱、会员拉新、好友推荐、理财资讯推荐等众多的业务和应用。

尽管已经在蚂蚁金服的生态的多个业务场景得到广泛应用,但GeaBase的雄心显然不止于此,它是蚂蚁金服整体的金融科技开放战略的坚定执行者。

目前,业界很多互联网公司都在做图数据库方面的研究工作,但其中绝大多数都是基于自身系统的,因此具有较强的依赖性,剥离起来比较麻烦。而现在市面上已经商业化的图数据库又几乎都不是分布式的系统,其目标用户也主要是数据量较小的中小型企业。

蚂蚁金服在设计之初就充分考虑了GeaBase系统移植的问题,因此,将其封装成产品,打造为高效易用的接入和管控产品化平台。这样的好处显而易见,那就是GeaBase可以轻松地移植到外部客户的系统之中,也正因为如此,GeaBase受到银行等企业的热烈追捧。据介绍,目前已经有十余家银行有意向配置GeaBase,而且部分企业已经与蚂蚁金服签订合作协议。