随着大数据、边缘计算、云计算等新科技的发展,机器学习等人工智能技术以前所未有的速度应用到各个行业,在不同前沿领域体现出强大活力。大规模的多维度、高质量数据作为AI技术在各领域成功落地的关键要素,却也逐渐成为制约其进一步发展的重要瓶颈。
创略科技创始人胡世杰在接受商界专访的时候告诉记者,关于数据和人工智能的应用,目前形成三大趋势:
第一,大数据隐私越来越受到各方重视,相关政策法规也陆续出台,数据的使用必然受到诸多限制;
第二,消费者对个人数据的重要性与隐私性的认知程度不断提升,企业也更加重视数据资产保护,对于跨组织的数据合作越来越谨慎,潜在数据孤岛问题更加严重;3
第三,数据资产的形成集中在BAT这种头部互联网企业,如何打破BAT的数据“围墙花园”,保护自己私域数据资产,形成良性的竞争环境和市场环境,成为各方企业关注的又一焦点。
胡世杰表示,在大数据发展之初,客户数据高度集中在头部互联网企业,互联网领域形成了中心化发展模式。企业要实现更多的客户洞察数据,唯一的途径就是与BAT类型第三方数据合作。但这种中心化模式,除去数据的积累愈发集中,易形成垄断趋势的弊端,另一方面,部分企业对于自有数据资产的保护意识大幅提升,特别是规模化(中大型)的企业或机构,则获得高质量、真实有效的第三方数据,越来越困难。
如何破除AI落地应用的两大阻碍:数据孤岛和数据隐私安全
企业数据资产安全以及隐私是必然的,也算是整体数字化变革不可或缺的要素之一。数据使用的限制使得互联网数据分散在不同企业、部门,组织中,形成“数据孤岛”,各方数据难以实现价值共享或协作。而企业数据隐私化形成孤岛,使人工智能技术发挥最大化价值受限,同时各机构、企业所拥有的数据又具有极大的潜在应用价值。那么,如何在满足数据安全、合规的前提下,利用多方异构数据进一步进行学习、建模以推动人工智能的发展呢?
“联邦学习作为分布式机器学习范式,可以实现各方在不公开各自数据的情形下,协同完成模型训练,解决一系列AI应用落地面临的数据安全和隐私障碍,以及创造一个健康的数据价值协作新模式,是人工智能领域发展的必然趋势。”胡世杰如是说。
在传统的AI应用模式中,企业以自己为中心化汇集尽可能多的数据,并基于此训练AI模型。企业采集的数据量越大、数据维度越丰富,则驱动的洞察也就越准确。而在联邦学习模式下,加入学习的各方不需要把数据汇集到中心化的体系,而是在参与方自己的设备或者数据中心通过AI算法产出数据洞察和预测,以及模型参数,并将结果同步回传到联邦学习的中心节点。在联邦学习的体系内,将各方回传的模型平均后继续学习、训练,得出更精准的结果,分发到各参与者,用以各自的业务场景。在这个过程中,参与者并没有交换数据,却可以实现较大规模的AI以及机器学习的应用场景。
区块链技术保障联邦学习共享模型安全有效
在联邦学习模式下,为避免由于行业竞争造成的故意混淆错误结果到联邦学习的体系中,以及一系列其他机制层面的系统性风险,造成训练模型的错误结果等,就需要透明、有效的安全机制进行干预,建立体系各方的相互信任。
谈及如何完善联邦学习的共享机制,胡世杰认为,区块链技术可以帮助企业各方在去中心化AI体系中,创造一系列的自动化透明管理,信任以及治理机制。在联邦学习过程中的参与者(企业或组织)都是主角,在一个严格的“机制创建信任”环境中,这一过程也未必需要一个中心化主导方。这个所谓的机制在联邦学习场景下,可以理解是由应用区块链技术提供的“智能合约”体系完成的。智能合约技术能使一个业务流程或交易在无中心主导方或“担保方”的情况下,有一个透明、去中心化以及自动化的管理机制,来消除参与者之间“信任程度”的风险要素。
“在联邦学习场景的应用中,可以采取投票机制,由联盟各方共同确认每个共享结果的质量,这样就可以有效地减少学习体系中不被信任的第三方以伪造的、有疑问的数据破坏整体洞察结果的情况发生。”
联邦学习在多维场景实现应用落地
目前国内外较早实现联邦学习应用落地的,是医疗和金融行业。比如对于新冠疫情的研究,各医疗机构根据病人图像或者数据挖掘出病人的肺部特征,通过联邦学习共享这些特征,既可以共同研究病情相关洞察,又保障了病人隐私;而在金融行业,加入联邦学习的银行之间可以分享客户信用预估模型,在不需要知道客户在其他哪些银行机构贷过款的情况下,获知某一客户的综合风险等级,做出相关预警。
创略科技作为国内领先的智能数据解决方案提供商,一直专注于营销领域,为国内外大中型企业提供应用于全局营销场景的数据及AI技术解决方案。胡世杰告诉记者,其实国内大部分B2C企业,其积累的客户数据体量都足够大,但是在应用AI技术进行模型训练时,却常出现数据维度不足的状况。而创略科技在服务了上百家企业的过程中,洞察到很多同行业甚至跨领域的企业之间,存在着客户及潜客的重叠交叉,从理论上可以互相补充、完善客户洞察。
基于此,创略科技已经开始探索把联邦学习融合区块链技术应用到智能营销领域,旨在帮助企业客户在安全合规的前提下,获得更加深刻、全面的客户洞察。
“创略目前已经在尝试帮助一些客户通过联邦学习的模式,共享AI训练模型产出的结果。其实相较于数据本身,通过AI挖掘潜在的客户行为预测及洞察,才是对于企业具有真正的应用价值。当然,联邦学习在营销领域的拓展还处于初级阶段,需要客户之间以及对提供通道的供应商具有高度的信任,因此创略科技目前并没有在整个客户体系内去推动联邦学习,而是在具有相同客户交集的企业之间实现1对1的共享机制——当企业双方都对彼此的数据洞察有需求时,创略科技就在AI应用场景下建立联邦学习通道,帮助企业实现安全、高效的多维度数据洞察。”胡世杰介绍。
数据孤岛和数据隐私正成为大数据时代新的挑战,联邦学习作为“数据孤岛”间的桥梁,必将成为未来AI技术发展的一个重要方向,最终解决数据安全共享的世界性难题,全面激活数字经济。