当我们在谈论人工智能落地,我们在谈论什么?
很多时候我们都是基于一个丰满的理想化前提:这个项目拥有足够丰富干净的大数据。但现实往往很骨感,很多项目拿到的数据,都是行业里某个山头单项的“数据孤岛”,无法得到一份完整全面的“数据大陆”。
这跟传统垂直企业的数据采集和数据管理方式有关,整体性调用受到商业机密、安全和管理因素的掣肘,互联互通面临很大的阻碍,严重影响了AI+行业落地的进度和质量。
5月24–5月25日,在中国计算机学会举办的年度盛会“2019 CCF青年精英大会(YEF 2019)”上,由微众银行AI团队提出的“联邦迁移学习”新方法和它打造的开源“联邦学习”框架FATE(Federated AI Technology Enabler)或引领AI+行业落地的下一个十年。
打破次元壁,盘活数据孤岛
虽然AI现在非常火爆,但我们以为的“大数据”时代并未真正来临。行业的实际状况是存在着大量的“数据孤岛”。这些“孤岛”大小不一,参差不齐,相互不连通,使得AI落地举步维艰。
以金融行业为例,它本身细分为银行、证券和保险等多个领域,每个领域积淀的数据方式、数据特点虽然有相同的部分,但差异更为明显。在此基础上,还有更细一层的数据割据,比如细分到一家银行下属的多个部门,都有自己的数据沉淀,但它们是没有打通的。
孤岛之内,再划分了N个孤岛,就像俄罗斯套娃一样,对处理数据的AI团队来说,困难重重。他们需要说服一家公司的领导调取多个部门的数据,面临着繁琐的审批流程;而想再进一步说服不同的公司拿出自己的数据,简直比登天还难。
面对这个问题,AI从业者一直在努力。微众银行AI团队倡导的“联邦学习”(Federated Learning)则提供了一种新的思路。
所谓“联邦学习”,顾名思义,就是搭建一个虚拟的“联邦国家”,把大大小小的“数据孤岛”联合统一进来。他们就像这个“联邦国家”里的一个州,既保持一定的独立自主(比如商业机密,用户隐私),又能在数据不共享出去的情况下,共同建模,提升AI模型效果。
本质上,它是一种加密的分布式机器学习技术,参与各方可以在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型。这也是一种共赢的机器学习方式,它打破了山头林立的数据次元壁,盘活了大大小小的“数据孤岛”,连成一片共赢的AI大陆。
而将“迁移学习”和“联邦学习”结合起来,变成“联邦迁移学习”,则是CCF青年精英大会上,人工智能行业的领军人物、微众银行首席人工智能官(CAIO)杨强教授提到的最新研究成果。
在杨强教授看来,“迁移学习”是将大数据迁移到小数据,实现举一反三,而“联邦学习”则可以让多个参与方数据不出本地进行合作,“联邦迁移学习”将“迁移学习”和“联邦学习”结合起来,帮助不同机构打破隔阂,联合建立AI模型,同时各方数据不出本地,用户隐私得到最好保护。
“联邦迁移学习”作为一种新的处理数据方法和能力,它的实用价值和安全性说服了很多企业将数据共享出来,打破了数据孤岛壁垒,构建跨领域合作,实现多方共赢。
“联邦学习”的引领者
“联邦学习”是机器学习的一种新模式,其历史不过三四年,主要是为了解决“数据孤岛”和数据隐私保护的两难问题,目前已经得到业内主流机构和专家学者的一致认可。
谷歌在2016年提出了基于个人终端设备(C端)的“横向联邦学习”(Horizontal Federated Learning)算法框架。在国内,微众银行AI团队是最早的“联邦学习”倡导者,并基于自己的落地实践,提出了“联邦迁移学习”,主要为了解决B端机构间联合建模问题,让“联邦学习”更加通用化。
它已经不再是一个概念,而是人工智能+行业的浪潮中的一把利器。
据介绍,微众银行在不侵犯企业用户数据的情况下,用“联邦学习”技术,除央行征信数据、流水数据外,将能证明企业经营健康程度的发票数据等不同维度数据纳入风控建模,对小微企业经营状况和信用能够进行360度模型评估,对小微企业风控模型性能提升了7%,大大拓展了可贷企业的范围。
效果也非常明显,68%的小微信贷客户在获得授信时无任何企业类贷款记录;38%的授信小微信贷客户在获得授信时无任何个人经营性贷款记录。
除此之外,微众银行还在包括风险评估、差异定价、精准营销等多个金融场景进行成功实践,助推微众银行实现业务创新,使得其金融服务覆盖面不断提升,社会价值贡献得到进一步体现。
推动微众银行AI团队率先进行“联邦学习”研究并将其应用于业务中的,是微众银行首席人工智能官(CAIO)杨强教授。资料显示,杨强教授是最早研究“联邦学习”的国际人工智能专家之一,2013年当选国际人工智能协会(AAAI)院士,2017年被选为国际人工智能联合会理事会主席,其400多篇关于人工智能和数据挖掘方面的论文,曾被引用超过20000次。而微众银行AI团队的成员也多是在人工智能技术方面具有丰富的经验和深厚的积累的高端人才。
人工智能是一个靠强技术推动的行业,“得技术人才者得天下”,杨强教授领导下的微众银行AI团队,成了国内乃至国际“联邦学习”方面的引领者。
去年10月,微众银行AI团队向IEEE标准协会提交关于建立联邦学习标准的提案——“Guide for Architectural Framework and Application of Federated Machine Learning”(联邦学习基础架构与应用标准),并得到了批准。
今年,杨强教授作为AAAI 2019年会上的特邀嘉宾,发表了主题为“GDPR、数据短缺和人工智能”的特邀演讲(AAAI Invited Talk),全面讲述“联邦迁移学习”的安全的分布式建模原理和在数据合规上的意义,引发了国际AI圈的强烈关注。
不止金融,打造AI大数据生态
由于拥有相对完善的数据和强烈的场景需求,金融行业被认为是AI应用落地最成熟的领域之一。但微众银行AI团队的“联邦迁移学习”能力,并不仅仅停留在AI+金融行业。
“数据孤岛”问题,在其他领域,也同样大面积存在。
比如在法律行业,如果一个AI团队想得到一个非常好的样本,需要经历很长的链条。他们得经过相关部门审批、法官、律师的多方参与,才能把一个样本标注好,这导致有标注的高质量数据并不多。更困难的是,这些数据分散在各地的各级法院,需要一个个去收集,面临的监管和流程,烦不胜烦。
幸好,在金融领域得到充分实践的“联邦迁移学习”模式,复制到其他领域效果同样出众。对此,微众银行AI团队专门发布了一个联盟AI生态系统(Federated AI Ecosystem),通过开源联盟AI解决方案FATE(Federated AI Technology Enabler)的形式,吸引更多的从业者参与开发和推广数据安全和用户隐私保护下的AI技术及其应用。
作为联邦学习领域的第一个商用级开源项目,FATE为开发者提供所必须的多方协同建模工作流管理、加密机器学习工具库和并行计算基础设施抽象三层能力,同时提供了很多开箱即用的“联邦学习”算法和“联邦迁移学习”算法供开发者参考,极大简化了联盟AI开发的流程并降低了部署难度。自推出以来,吸引了不少品牌第一时间加入。
不久前,微众银行AI团队和极视角(Extreme Vision)联合打造了城市管理领域的联邦学习视觉应用项目。传统的城市监控设备管理面临标签数量少、数据分散,集中管理成本很高且模型更新和反馈存在离线延迟情况,联邦学习让监控终端进行在线模型更新反馈,无需上传数据,且对模型提升率高达15%,模型效果无损失。
这只是联邦学习应用的其中一个典型的例子。基于FATE提供的数据隐私保护的分布式安全计算框架和友好的跨域交互信息管理方案,更多的企业会陆续加入,拿出自己的积淀数据,共同构建一个安全、高效的AI大数据生态,最终反哺自身的业务,实现产业升级。
科技向善,更加安全的AI时代
去年以来,新的国际形势,对中国的技术界提出了更高的要求:基础学科的大规模投入、知识产权的保护和个人隐私安全的重视,到了一个全所未有的高度。
人工智能的落地,伴随着与各种数据的“亲密接触”进行。如何保护好隐私和处理好数据安全问题,一直倍受业内外关注。法律的日益严格,也给AI从业者提出了新的要求和挑战。
“史上最严厉”的数据隐私保护法案——欧盟数据隐私保护法GDPR(The General Data Protection Regulation )近日对谷歌等巨头就违反数据隐私法展开调查,使用了数据隐私的借口。一个事实是,保护隐私是个大趋势,全世界都在加强数据隐私保护方面的立法建设。
不久前,科技部部长王志刚也表示:“我国正在加紧研究起草人工智能治理准则,近期将向全社会发布。”而就在前两天,国家互联网信息办公室联合相关部门研究起草了《数据安全管理办法(征求意见稿)》,目前正在征求意见中,这一被国内业内人士视为“史上最严”的数据安全管理办法一旦通过,个人隐私保护成为了AI发展必须解决的问题。
隐私和保障数据安全,领军企业要带好头。
上个月,腾讯的CEO马化腾表示,腾讯将调整愿景,走“科技向善”路线,这是腾讯提出产业互联网以来,针对行业着重强调的一个新理念。
科技向善,本质是借助科技的力量,让世界变得更加美好。比如张小龙说的不能用技术套路用户,又比如诺奖得主Deaton说的AI技术发展需要兼顾隐私保护,都是在发展科技过程中,一种积极“向善”的行为。技术本身就是一把双刃剑,从业者应该时刻管好自己的双手,或者尽量把自己的剑打造得更加友好。毕竟,科技发展的终极目标是更好地普惠大众。在这一点上,微众银行的理念与腾讯相似,创新性提出“联邦迁移学习”技术,就是一个最好的明证。它是针对AI+行业落地这场科技赋能战,专门打造的一把善良友好的利剑。
“联邦迁移学习”的另一个优点是保护隐私,确保数据安全。它克服了从政策上、监管上、一直到技术上如何能够保护用户,同时能把割裂的数据孤岛拼装成一个“大联邦”,既满足了隐私的保护,又实现了对数据的开发。
此前,埃隆·马斯克在谈到人工智能威胁论时,多次强调隐私保护和数据安全对人类的重要性。如果方法不对,盲目地使用采集的数据,可能对人类造成极大的负面影响,间接阻碍人工智能的发展。“联邦迁移学习”兼顾了数据的开发和隐私的保护,确保了AI落地的安全推进。
人工智能在B端的落地,已经到了一个历史关键点。微众银行AI团队的努力,旨在利用最新的机器学习技术,集合众人之力,构建一个“可持续、和谐、共赢”的AI生态,为接下来的AI立法和监管提供更多技术依据,推动产业进入一个更加安全的AI时代。