大数据时代 分析技术如何进化

当你在应用信用卡进行交易时,你可能没有意识到,这笔交易是否成功,是由费埃哲(FICO)公司的产品在后台进行智能判断和监测的。目前,费埃哲公司的Falcon解决方案在帮助客户监控全球2/3的信用卡交易,并从中辨别欺诈活动。显然,这是一个非常典型的大数据应用——银行每天的信用卡交易数都是一个天文数字,如何有效处理和鉴别这些数据,帮助企业做出正确的决策?在非结构化数据汹涌增加的今天,费埃哲公司又是如何判断大数据时代的分析技术进展?日前,比特网记者采访了费埃哲(FICO)公司首席执行官Will Lansing先生。
  问:大数据对软件和硬件都有非常强的挑战,所以现在业界有一种趋势,要做软硬件结合,以更紧密的一体机形式来提供分析服务。最典型的产品,例如甲骨文公司的 Exalytics系统。那么,您是如何看待这一趋势?费埃哲公司会如何更好地与硬件进行优化整合?
  答:这是一个非常好的问题。就费埃哲公司而言,基础架构并不是我们的专长,所以我们要和我们的客户去合作。目前,我们有一些合作方式是基于SaaS的,也有一些是基于其它各类解决方案的。费埃哲公司并不强制客户使用某种特定的基础架构来运行我们的应用、捕捉应用数据,而是在客户现有的基础架构运营优化、进行合作。实际上,费埃哲公司也在和一些实验室合作,例如Cloudera,借此来拓展我们的能力,消除我们(对硬件基础设施在理解上)的局限性。
  问:在大数据的分析方面,数学模型非常重要。我们知道,费埃哲公司在金融领域有很深的积累。那么,这种积累如何推广到其他行业?
  答:费埃哲公司在垂直行业已经有很长时间的积累了,这也是我们能够将业务拓展到非金融行业的一大原因。我们公司非常擅长分析一些复杂、困难的问题,这些分析技巧不仅适用于金融行业,也适用于其他多个行业。例如,我们对于客户行为的了解,就不局限于金融行业,还包括保险行业和零售行业。在保险行业当中,某些欺诈的行为和在银行业当中的信用卡欺诈的用户行为是非常类似的。而在营销解决方案方面,很多零售行业的客户行为和银行客户的行为也非常近似。所以,我们在金融行业的客户管理经验,也可以应用到零售行业。
  以费埃哲公司在中国的业务发展为例,银行业务是最传统的领域。但从一年前开始,费埃哲就开始把我们成熟的技术推向保险领域,协助保险公司做理赔的反欺诈。尽管保险行业的业务特点跟银行不太一样,但我们的技术是同样适用的,而且我们在国外的保险行业也有所积累。因此,费埃哲在国内的保险理赔反欺诈的案例就非常成功——客户回访时,他们表示,现在能够通过数据分析,实时抓住大批量的理赔欺诈。
  问:我们也注意到,您提到了信用卡反欺诈这个大数据应用。但相对而言,这都是针对结构化数据的,针对邮件、文本这些非结构化的数据,费埃哲公司将采用哪些解决方案去处理?
  答:大数据的定义当中,包括3个V(高容量、高速度、多类型)。虽然费埃哲的信用卡反欺诈解决方案只是针对结构化数据,但我们已经能够处理大容量数据和高速的数据。到目前为止,我们还是采用相对传统的方式,将数据简化到一个智能的、可操作的层面,然后基于这些数据来做出快速决策。尽管我们现在只能做到这三个V当中的两个,但我们非常接近完美地来解决这个问题的。随着基础架构不断的完善和演进,费埃哲的解决方案也会发生变化。
  问:在数据爆发的时代,我们进行数据分析的方式需要改变吗?
  答:我们关于大数据的绝大多数讨论都集中在数据的规模,并没有相应关注在数据分析方式的改变。 “数据流”的分析对于FICO并不陌生,其中最好的应用莫过于我们的反欺诈解决方案——FICO Falcon Fraud Manager。Falcon模型依靠交易特征,它概括了数据在交易过程中的特征,以便计算相关的欺诈特点的变量,而不依赖由此生成的既有数据。
  我们在数据流特征分析领域不断推动创新,尤其在反欺诈领域。这些创新技术包括:全球智能特征识别技术。它可以自动发现银行卡交易、ATM和商户交易中的不正常行为。再比如FICO公司开发的自我校正分析技术,它可以随着客户行为模式的改变,服务渠道的改变而改善侦测的准确性。另一个由大数据带来的变化是分析必须减少对于固有数据的依赖。分析模型将能够根据数据流中的动态数据自我调整。为了应对不断增加的数据流中的动态数据,我们集中研发了自我学习的一些技术,包括:自适应分析和自我矫正分析技术。我们坚信这些关键技术将弥补传统方式的不足。自学习技术甚至将可能在某些领域取代传统的模式。
  最近,我们在自己开发的自我校正分析技术上取得了重大进展。已申请专利的“多层自我校正分析技术”的体系结构与神经网络模式类似,但与之不同的是新模式可以在数据流中自我校正。使用多层自我校正模式将需要更少的数据采样,并且可以直接与自适应分析技术联合使用,可以更为动态地发现欺诈。将“多层自我校对系统”与目前通用的技术相比,我们预见未来的分析技术将大幅提高。
  问:更进一步地说,现在的大数据分析,都是数据进行筛选、过滤到数据仓库当中,然后进行分析。随着硬件设备在性能和容量上不断提升,还有必要对传统分析技术进行大规模改进吗?
  答:今天的大数据分析情况确实如你所说的这样。但我相信,在不远的将来,我们会需要直接对大数据进行分析。这种分析可能有两种方式:一种是随着数据集的不断增加,我们需要重新建模——在数据集不断增加的情况下,可能需要考虑应用Hadoop技术进行存储,否则我们就没有容量足够大的存储空间;另一种方式则是采用基于机器学习的方法,来进行大数据的处理和分析。
  至于硬件的性能,也许现在还不是问题,但当我们考虑所有数据,并从中找出最有价值的地方时,用现有的基础架构就会显得远远不够。例如,今天的银行客户,他们已经知道,未来他们的数据是分散的、遍布各地的,可能在银行内部,可能在局域网或者在云里面,他们希望这些数据都能够被读取,都对数据进行分析。显然,这是今天的架构无法完成的,这需要将来才可以实现。
  问:那么,您认为机器学习和传统模型这两种数据分析方式,哪种更有发展前途?
  答:大数据的最终目标就是利用各种数据来做出最好的决策。大数据最美的地方,就是我们不再受数据容量的局限,它可以不断的增加一些变量,然后增加价值,帮助我们做出更好的决策。如你所提到的,现在我们有两种模型,一种是基于假设的模型,例如前几年麦肯锡提出来的假设模型,说我们要关注哪些高价值数据,关注相关领域的数据,关注那些能够提升效率的数据。
  另一种模型就是一种不是基于假设的模型,确切地说,是一种机器学习的模型。这种模型跟假设模型完全不同。我并不认为这两种模型可以相互替代。从长期来看,一定会有更多的数据需要我们去关注。对大数据来说,它能够不断的增加变量,帮助我们基于这些数据做出更好的决策,这是它特别有优势的一个地方。我个人认为,在比较长的一段时间之后,机器学习的这种方式,有可能会取代假设的这种模型。
  问:在金融领域的机器学习应该具有什么特性?
  答:以小额贷款的机器学习为例,这需要非常快速观察和衡量,能够迅速发现坏帐,这样才能够快速学习、调整。尽管目前也有一些公司推出了所谓的机器学习,但这是非常有局限性的,主要是用于展示,展示出新科技所带来的可能性,并告诉客户这个新科技可以不断完善,并且最终能够降低风险。