TigerGraph:实时图数据库助力金融风控升级

作者:李晨,TigerGraph高级解决方案经理

随着互联网金融的发展,传统金融机构一边享受着金融科技带来的效率提升和服务边界的扩大,另一边黑产的攻击手段也在不断升级,金融机构遭遇的欺诈情况越来越复杂,基于知识图谱的关联反欺诈也应运而生。 

风控就是攻守双方技术的进化史

随着互联网金融的发展,传统金融机构一边享受着金融科技带来的效率提升和服务边界的扩大,另一边随着科技的发展,“黑产”也从盗号演变成了利用大规模攻击、通过IP池等技术绕过风控规则,金融机构遭遇的欺诈情况越来越复杂,主要有四点的变化:

第一,专业化。目前的“黑产”团队已经非常专业,不仅有专业的风控人员、专业黑客,甚至还有AI专家,因此金融机构或者金融服务机构如果没有掌握更先进的技术已经无法在技术上获得一个比较优势。

第二,产业化。金融欺诈已经从单个作案发展成了团伙作案,因此“黑产”团伙需要通过大量账号进行大规模攻击以期获得更大的收益。这种方式导致虽然他们的欺诈模式不断变化,但是在短时间内会有行为惯性,也给了风控人员抓住这种行为痕迹的可乘之机。

第三,隐蔽化。目前“黑产”集团跨境犯罪已经非常普遍,这些跨境犯罪集团的手段更加隐蔽包括利用猫池、IP池对身份进行洗牌,潜伏时间较长,交易链路更加复杂等,因此对数据的覆盖范围提出了更高的要求,同时需要风控人员做更深层次的数据挖掘探索。

第四,突发化。因为黑号一旦进入征信系统后号码将无法再次骗贷,因此“黑产”行业主要从两种方式榨取黑号的最大价值,第一他们会用一个号码再很短的时间内对多个平台进行骗贷申请,第二是很多账号同一时间内对一个漏洞进行大规模突击性的攻击,这两种突发式的攻击要求反欺诈监测系统具备高实时性的能力。

因此,回首近年来金融的发展可以看到,风控就是攻守双方技术的进化史。

 基于图关系的金融解决方案

截止目前,反欺诈也经历了传统反欺诈、基于大数据反欺诈以及现在的基于知识图谱(关系网络)反欺诈三次进化,其中,基于知识图谱反欺诈依赖的底层技术就是图数据库技术。

上图是美国一个老少皆知的小游戏“connect the dots”,它的玩法就是把所有线索连在一起,即可得知事件全貌。其实图中的点就相当于现在的很多数据,在系统里是零散的,因此如何把这些零散的点按照规律快速地连接起来,就是实时图数据库要做的事情。

如上图所示,点是用户数据,而用户数据是图数据库的基础,因此如何遵循法律法规和监管要求,按照用户授权收集数据是关系网络反欺诈的关键,本文中就不对数据采集这块进行展开了。除了内部数据外,加上其他的外部数据收集之后,风控人员就可以利用用户的客户社会关系、交易模式关联、互联网行为、移动设备等数据对客户的行为模式进行匹配分析,最后通过反欺诈规则引擎和机器学习加以辅助,以此判断客户存在欺诈的可能性。

TigerGraph实时图数据库反欺诈应用简介

TigerGraph实时图数据库的整体架构示意图

接下来介绍一下基于TigerGraph的反欺诈系统架构。

首先,TigerGraph实时图数据库能够在支付处理前识别欺诈。基于图灵活的Schema特性,TigerGraph支持将不同来源的数据汇集,基于数据之间的关系组成类似宽表一样的全局Graph。

其次,TigerGraph通过机器学习+图数据库识别欺诈,目前机器学习技术面临着特征值不够多、不够有效的问题,TigerGraph图数据库能够通过对用户的关系特征进行建模,然后基于图数据库进行毫秒级实时甄别。因此,对于系统内已标记人群,通过图数据库能够快速通过他的人群特征,进行欺诈判定,而对于系统内未标记或标记过期人群来说,TigerGraph图数据库在系统里能够毫秒级生成百余项关系特征,并且基于决策树或逻辑回归等方式进行分类和数据分析。

最重要的一点是,TigerGraph图数据库采用的无论是基于关系得到的特征还是基于决策树或者是基于逻辑回归的判断方式都是非常好理解,这为企业关注的“可解释的AI”提供了解决方案。

TigerGraph实时图数据库反洗钱应用简介

反欺诈的例子展示了TigerGraph图数据库如何和机器学习结合的,接下来通过两个反洗钱的应用场景来了解TigerGraph图数据库的另外一个优势——深度链接分析。

第一个场景是利用图数据库在反洗钱中发现漏报和提高反洗钱侦测准确性。比如一个反洗钱的报警,由于新用户没有金融交易历史记录,没有先前的告警,不在高风险区域,就把这笔告警标记为低风险,但是利用图数据库进行深度链路分析之后,会发现这个用户的号码是和别人共用的,并且曾经有一些洗钱的预警,它的分类就从低风险变成了高风险。由此可见,欺诈者尽管在欺诈过程中将自己的一些基本特征及浅层次链接信息进行了伪造,但是深层次的关系网络是无法提前伪造或者需要付出极大的成本去掩饰的,基于TigerGraph可以轻易提取出深层次的特征,进而协助企业进行判断。

第二个场景是利用图数据库在混合经济模式中追踪反洗钱(传统货币+加密货币)。比如上图中红框里面是已经发现的两笔可疑交易,基于这两笔交易针对资金流向的上下游进行深层交易追溯时,去掌握它的整个洗钱网络,这就依靠数据库能不能支持10层以上的深度数据链接查询。目前TigerGraph也正和一些美国客户尝试把比特币或其他加密货币的交易记录纳进监管,即使交易手段和交易链路较之过去更加复杂,然而在TigerGraph的强大算力下,洗钱网络终将无所遁形。 

大数据+图技术应用现状

基于图数据库技术在这些场景中优异的表现,目前很多的企业开始对图数据库表示出了兴趣,在这也有一些前瞻性的企业已经从这项技术中受益并取得竞争性优势。

图技术已经出现很多年了,仍然还有很多企业没有用起来,是什么阻碍了这项技术的推进呢?

首先是无法扩展到多台机器,刚才我们已经提到,要想知识图谱发挥最大效用,数据种类的丰富性和数据存储年限都是非常重要的,但是之前的图数据库大多都是单机版,机器的配置大大限制了数据的存储范围。

举个例子,我们的某个银行客户想针对反套现场景的资金回流进行分析,即个人通过信用卡将钱刷给商家,商家再通过其他账户将钱打回给个人的储蓄卡。在这个场景中需要借记卡和信用卡的数据,客户的数据经过数据清洗以后,仅是10个月借记卡数据+1个月信用卡数据规模仍有5个T。这样的数据量过去的图数据库是无法支持的,基于TigerGraph,我们用了12台机器的集群实现了本期数据的存储,并将计算效率从之前的3-4天得到结果缩短到1-30分钟。他们的二期设想是想把借记卡和信用卡各13个月的数据放进去进行分析,场景才能更全面地覆盖到套现群体,而这个数据规模对于TigerGraph来说也不是问题。

第二点就是刚才那个反洗钱的例子也看到了,分析路径每增加一步,都可能揭示更多的链接和隐含的关系,实际业务需要中需要做到3-10步以上的分析,目前的图数据库在企业级场景下,2度到3度查询时就会出现超时或者内存溢出的场景,如此浅层的特征关系欺诈者甚至可以伪造,这样的性能可以说对欺诈甄别的帮助很小。

最后一点就是我们对欺诈等场景是有实时性要求的,而其他数据库难以做到亚秒级查询并支持实时更新操作。尽管目前国家对反洗钱等场景的时限要求并不高(按天计),这也是由于之前的技术发展未能实现更迅速的计算效率而做出的妥协。理论来说金融领域的任何案件在时效性上必然是越快越好。目前我们给国内某支付机构做的反洗钱系统,场景识别已经做到了分钟级。

这三点中每一点目前也都有替代的解决方案,很多公司通过图数据库+大数据平台的方式实现了大数据量+秒级相应的效果,但是这样的解决方案由于技术门槛较高无法轻易掌握。而作为普通企业来说,需要一款简单、成熟的解决方案来满足这三点要求,实时图数据库TigerGraph能够很好的地满足企业这三方面的需求。

TigerGraph的独门武器

第一,在可扩展性和高性能方面,TigerGraph作为全球首家实现原生并行图数据库技术的公司,底层基于原生并行图存储结构,所有的数据都以边和节点的形式进行存储,数据在进入TigerGraph时会进行压缩,加之图分区技术,实现了较之其他图数据库50-200倍的存储规模。边和节点既是存储模型又是计算模型,所有的节点都以内部索引的形式表达以利于快速定位,基于MPP架构支持大规模并行计算。基于以上,TigerGraph在单个项目上实现了千亿节点,万亿边的数据规模下,支持每天20亿次的数据查询和更新。对于深度链接查询更是可以做到6-10+度的查询。

第二,在易用性方面,TigerGraph自主开发了类SQL的图查询语言GSQL,GSQL拥有图灵/SQL完备的表达力,即目前所有的SQL查询和算法都可以通过GSQL实现,支持以天计(不是以周计)的PoC(项目验证)向客户展示价值。

第三, TigerGraph开发了GraphStudio可视化开发工具,这款工具基于浏览器的,从graph schema设计,到关系型数据-Graph映射,数据导入,数据查询均可通过该工具实现,大大降低了使用门槛。数据导入后即可查询N度邻居、最短路径等查询,相对复杂的查询也可以等技术人员写好以后,业务人员通过GraphStudio进行查询。