2019年7月20日,由微众银行、DataFun主办的主题为“打破数据孤岛:联邦学习技术实践探索”技术沙龙在深圳举行。微众银行人工智能部副总经理陈天健、高级研究员范涛、AI系统架构师曾纪策以及腾讯神盾沙箱产品技术负责人陈雄等四位专家,分别从联邦学习时代背景、新一代联邦学习技术、联邦学习开源平台FATE,以及数据合作与安全多方计算等几个方面,完整地阐述了联邦学习如何打破「数据孤岛」与「数据隐私保护」的两难困境。
人工智能经过漫长发展,近些年在算法、算力、数据上取得巨大突破,得以在行业应用中崭露头角,发挥着举足轻重的作用。不过随之而来是一系列的新问题——比如大多数行业中数据分散形成的「数据孤岛」,以及越来越受到关注的「数据隐私保护」问题。针对数据孤岛和数据隐私的两难困境, 微众银行AI团队提出了基于“联邦学习”的系统性的通用解决方案,并在GitHub上开源工业级的联邦学习技术框架FATE,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的前提下,进行多方数据使用和联合建模。目前微众AI已经推动FATE在信贷风控、监管科技、零售、保险等领域的一系列应用落地。
联邦学习的时代背景
陈天健指出,深度学习是技术的选择,联邦学习是历史的选择。随着经济全球化的发展,互联网时代的到来,产生了海量的数据,深刻地影响着各行各业。但是伴随着国外GDPR(《通用数据保护条例》,General Data Protection Regulation)等一系列数据隐私保护法律法规出台,数据隐私保护与数据安全问题愈发受到关注。
国内数据监管法律体系研究
同时,国内数据监管法律体系也在不断完善中,并且体现出了两个特点:
l 严格化:数据监管越来越严格,处罚手段越来越严厉;
l 全面化:从个人信息数据的保护,到科学数据、医疗数据、电商数据等多种数据的保护。
在这种背景下,如何合理合法地运用大数据,让业务可以持续运行下去,就需要联邦学习技术。
微众银行 AI部门副总经理 陈天健
陈天健表示,联邦学习是一种面向安全合规的大数据合作机器学习技术,和其他技术最本质的区别在于:联邦学习是大数据合作过程中权责和利益的调整工具,是顺应当前时代背景而产生的。联邦学习的应用场景也十分广泛,并没有特别的领域或者具体算法限制,微众银行已经在信贷风控、智慧城市管理、机器视觉、装备故障检测等各行各样的应用中和领域合作伙伴开展技术合作,推动联邦学习社区进一步发展。
无论是中国人工智能开源软件发展联盟(AIOSS)发布国内首个联邦学习标准,还是越来越多合作咨询纷至沓来,大量企业机构都已关注到了联邦学习。现已有多个行业机构与我们进一步探讨联邦学习的应用落地,解决数据隐私这一越来越严重且全世界人类都在关注的问题。联邦学习未来可期。
FATE:新一代联邦学习技术及应用实践
人工智能技术的应用和落地,现实和理想往往有很大差距:
理想:数据质量好、标签数据充足、数据集中;
现实:数据质量差、缺乏标签数据、数据分散隔离,80%以上的企业存在数据孤岛问题。
联邦学习的分类体系
范涛指出,联邦学习是解决上述问题的关键技术。其具有:数据隔离数据孤岛、无损、对等、共同获益等特点,根据使用场景的不同,联邦学习可以分为:纵向联邦学习、横向联邦学习以及联邦迁移学习。
微众银行 高级研究员 范涛
目前联邦学习已经赋能多个领域:
l 银行+监管:联合反洗钱建模
l 互联网+银行:联合信贷风控建模
l 互联网+保险:联合权益定价建模
l 互联网+零售:联合客户价值建模
遇见 FATE
最后,范涛为大家介绍了微众银行主导的联邦学习开源项目FATE(Federated AI Technology Enabler)。其核心功能有:
l FATE-Serving:联邦在线模型服务
l FATE-Flow & FATE-Board:联邦建模Pipeline和可视化
l FATE FederatedML:联邦学习算法各个功能组件
l EggRoll:分布式计算和存储抽象
l Federated Network:跨站点网络通信抽象
构建端到端的联邦学习 Pipeline 生产服务
联邦学习的优势在于能够保证参与各方在数据不出本地,保持数据独立性的情况下,多方共建模型,共同提升机器学习效果。联邦机制下,安全隐私有了优势,但技术上也会面临更多挑战。作为一个工业级的框架,端到端的联邦学习Pipeline致力于完成高弹性、高性能的联邦学习任务,主要包括建模、训练、模型管理、生产发布和在线推理几个方面。
端到端的联邦学习Pipeline
曾纪策分享了如何灵活调度管理复杂的联邦学习任务、可视化联邦建模的实现以及在线联邦推理服务的思考与实践,解决实验性机器学习到实际生产应用落地的难点。
微众银行 AI系统架构师 曾纪策
曾纪策重点介绍了:FATE-Flow,端到端的联邦学习Pipeline调度平台。包括如下特性:
l DAG定义联邦学习Pipeline:多方非对称Pipeline DAG、通用json格式DAG DSL、DSL-Parser
l 联邦任务协同调度:多方任务队列管理、协同分发任务、任务一致性保证、多方状态同步等
l 联邦模型管理:联邦模型存取、联邦模型一致性、版本管理、发布管理等
l 联邦任务生命周期管理:多方启停、状态检测等
l 联邦任务输入输出实时追踪:数据、模型、自定义指标、日志等实时记录存储
分享的最后,曾纪策呼吁大家一起:“Join FATE,Let’s Federated Everything!”
神盾沙箱:数据合作与安全多方计算揭秘
在数字赋能的浪潮中,机器学习的应用场景非常多。而机器学习又是对数据质量要求极高的应用,产生了较大的数据流通性。无论是特征工程,还是模型训练和预测,当需要数据合作并保护数据的安全隐私时,安全多方计算技术、联邦学习等就有了很大的用武之地。腾讯云神盾数据沙箱基于腾讯现有数字生态,为数据合作提供安全可信的机器学习平台,覆盖业务拉新、联合建模与上线服务等场景。
沙箱分布式合作建模
张雄指出:安全多方计算MPC是指针对无可信第三方情况下,安全的进行多方协同的计算问题。
常用安全多方计算技术有:
l 秘密分享
l 混淆电路
l 不经意传输
l 同态加密
腾讯 神盾沙箱产品技术负责人 张雄
在分享环节,张雄首先为大家介绍了MPC中的四个基础技术。然后从小到大的业务场景,系统的讲解了神盾沙箱的数据合作业务中,如何应用MPC技术和联邦机器学习保护两个合作方之间的数据安全问题。张雄表示,联邦学习框架FATE,可以让沙箱做到不交互数据资产方和业务方的原始数据,达到数据隐私保护的目的又可以完成业务上的数据合作。
最后,张雄讲到,神盾沙箱的目标是以腾讯云公有云上现有的大数据生态为基础,为那些具备计算或者存储能力的大数据集群提供一个数据合作的环境,助力腾讯云上的各行各业更好的体会到“科技向善,数字赋能”的优势。在未来的规划中,会从两个方面来推进FATE在深度沙箱中的应用。一方面,神盾沙箱会推动公有云上现有的数据资产方使用沙箱部署FATE,帮助那些在己方行业维度上有数据优势的企业,更深入的挖掘数据的价值,融入到互联网数字生态中。另一方面,神盾数据沙箱希望借助FATE打造腾讯云上的数字生态,吸引那些需要更多数据来提高业务转化率的企业,迁移到腾讯云上,实际体会数字赋能的魅力。
此次沙龙为我们揭示了联邦学习作为一种可行的办法如何打破数据孤岛。对于联邦学习的研究与落地探索不会停止,FATE也将不断提升。面对联邦学习的未来,陈天健表示:“目前联邦学习的应用主要受限于网络带宽与芯片的计算力,我们现在主要还是在数据中心做联邦学习,这两者都能比较好地满足。如果未来需要在手机等边缘设备上做联邦学习,那么更大带宽的通讯技术和更强劲的边缘算力必不可少。我非常看好 5G 通讯技术,它能为联邦学习带来足够的带宽,同时随着手机芯片越来越强,联邦学习落地到广大移动端设备并不会太远。”