文/ PPmoney万惠集团人工智能团队
如果说做 AI 研究就像造宇宙飞船,除了充足的燃料之外,强劲的引擎也是必不可少的。假如燃料不足,则飞船就无法进入预定轨道。而引擎不够强劲,飞船甚至不能升空。类比于 AI,深度学习模型就好像引擎,海量的训练数据就好像燃料,这两者对于 AI 而言同样缺一不可。
伴随着最近几年的机器学习热潮,迁移学习 (Transfer Learning)成为目前最炙手可热的研究方向。迁移学习强调通过不同领域之间的知识迁移,来完成传统机器学习较难完成的任务。它是解决标定数据难获取这一基础问题的重要手段,也是未来更好地研究无监督学习的重要方法。
巧妇难为无米之炊
在开展一项新的业务场景的时候,都需要面临一个用户量从0到1的过程。在小额借贷的业务场景下,每开展一条新的业务线,平台都需要相对应的风控系统来对进件客户的风险进行评估,从而达到控制逾期,风险定价,完成预设利润率的目标。
在新业务未上线的时候,所有的算法建模工程师在进行风控模型建模的时候都会面临一个困境,即新业务因为没有上线,所以对应业务线的数据积累几乎为0。
所谓巧妇难为无米之炊,没有数据进行支撑,所有的模型算法都只是空中阁楼,无从谈起。这个困境被人们称之为风控系统的冷启动问题。
以往,解决风控系统冷启动的问题的常规方法多依赖于建模人员的业务理解经验。即在风控系统启动之初,建模人员基于过往在其他相似业务场景中的经验积累,确定一定量的业务规则来帮助风控系统完成多个要求,并经过一段时间的业务量的积累,在完成模型建模的最低样本量要求后,建模人员才能开始进行风控模型第一个版本的更新。
因为该过程多依赖建模人员业务理解经验。所以其可能出现两方面的问题:一是建模人员自身业务理解能力不够深,从而建模效果与实际需求出现偏差;另方面,建模人员理解不统一,而产生分歧。
针对风控系统的冷启动,PPmoney万惠集团人工智能团队成员开始尝试用迁移学习来进行处理。
用迁移学习缓解数据源不足
根据 Github 上公布的“引用次数最多的深度学习论文”榜单,深度学习领域中有超过 50% 的高质量论文都以某种方式使用了迁移学习技术或者预训练。迁移学习已经逐渐成为了资源不足(数据或者运算力的不足)的 AI 项目的首选技术。但仍然存在大量的适用于迁移学习技术的 AI 项目,并不知道迁移学习的存在。
深度迁移学习是一种处理标注样本数据少,模型训练成本高而产生的方法。它是从其他数据源训练得到的模型,经过一定的修改和完善,来在类似的领域进行复用,从而缓解数据源不足引起的问题。
事实上,人们对于迁移学习这种能力是与生俱来的。比如,如果一个人已经会打乒乓球,就可以类比着学习打网球。如果已经会下中国象棋,就可以类比着下国际象棋。因为这些活动之间,往往有着极高的相似性。生活中常用的“举一反三”、“照猫画虎”就很好地体现了迁移学习的思想。
迁移学习的基本思路就是利用预训练模型,即已经通过现成的数据集训练好的模型,在其中找到能够输出可复用特征的层次,然后利用该层次的输出作为输入特征来训练那些需要参数较少的规模更小的神经网络。
早前,第四范式公司创始人戴文渊在百度负责名为“凤巢”的广告营销系统时,利用迁移学习将百度搜索算法应用到问答社区“百度知道”,使后者点击率提升四成;腾讯将大规模在线电商推荐任务迁移到新领域,大大减少了数据需求量;微软也利用迁移学习分析了电商产品的舆情取向。
PPmoney万惠集团人工智能团队便是基于上述迁移学习的理论,在新风控业务线建立过程中,在风控系统在完成了最初的从0到1的阶段,有少量数据量积累的情况下,尝试利用深度迁移学习技术综合使用平台现有其他类似业务线的数据与当前业务线累计的少量样本量作为建模的备选样本,以期提高风控模型性能,更早完成风控模型的第一个版本的更新,帮助新业务线快速走上正常放量的业务流程。
迁移学习在风控系统冷启动中的应用
2017底年,因为宏观政策的变动,集团2018年业务逻辑出现较大差异,其基本可以认为是一条新的业务线。
随着新业务线的启动,风控系统的冷启动问题和建模数据量较少的问题也随之而来。
因为机器学习的模型假设中对于数据样本都有一个公共的假设前提,即所有建模样本均必须满足独立同分布假设。所以如果如以往一样利用传统的机器学习模型进行建模,那只能利用2018年的数据来完成。而2018年的数据又相对较少,因此团队开始尝试使用深度迁移学习的方法将2017年的数据作为source domain(始源域),2018年的数据作为target domain(目标域)来进行建模,希望能提高模型最终表现效果。
LightGBM是2017年微软开源的一个基于GBDT的工程实现框架,其以计算速度快过Xgboost数10倍,并能达到相若的效果著称,是人工智能团队平日针对分类问题进行建模使用的主要模型。
团队基于LightGBM,利用当前平台特征库中2018年某条主营业务线的数据进行建模,将其结果作为对照组。然后设计了两个浅层的神经网络利用特征库中2017年该业务线中的数据进行建模,其中NN1为深而窄的网络,NN2为比较浅和宽的网络,以此作为深度迁移学习的base,抽取2017年网络的前几层作为迁移特征,并在2018年的数据上进行训练以及交叉验证。
交叉验证(10*3) | AUC | KS |
lightGBM | 0.737 | 0.335 |
NN1_all | 0.759 | 0.359 |
NN1_2 | 0.758 | 0.357 |
NN2_all | 0.762 | 0.363 |
NN2_2 | 0.760 | 0.360 |
模型交叉验证的结果图
从结果上看,在2018年数据上进行了fine-tune之后的神经网络,不论是NN1还是NN2,相比较LightBGM训练出来的模型在AUC和KS值上都有较为明显的提升,提升幅度为0.02左右。
基于以上实验,团队发现深度迁移学习在风控系统的冷启动阶段的运用,对于风控模型的提升相比使用传统的机器学习的方法有比较明显的提升。此外,在实验过程中,团队发现在集团该业务线数据上,相对宽而浅的网络NN2有微弱优势。
虽然现在团队对于迁移学习的应用还处于实验阶段,但是其效果也为集团后续新业务线的开展提供运行思路。在没有客户数据、客户表现的情况下,如何利用以往成熟业务的数据,做好新业务的风控策略上线,从而减少“拍脑袋想方案”的方式做法,从理论和数据方面给予更多支持。
近些年来,深度学习领域飞速发展,大量的方法和理论都开始尝试运用到风控系统中,例如这两年红遍全网的GAN,前两年因为阿尔法狗而火热的深度强化学习等等。
虽然这些理论方法当前大都停留在传统领域中的运用,例如图像,文本,音频识别等,针对风控场景的使用相对较少。但是华裔机器学习专家吴恩达就曾表示,在监督学习之后,迁移学习将引领下一波机器学习技术商业化浪潮。