生成式AI发展需拧紧数据“安全阀”

肯睿中国Cloudera 大中华区技术总监刘隶放

2023年毫无疑问是生成式AI爆发式发展的一年,以ChatGPT为首的生成式AI技术在全球点燃研发浪潮,大语言模型迅速席卷全球科技界。进入2024年,生成式AI注定仍将成为全球关注的焦点,有望将我们带入一个繁荣的新兴产业时代。然而,AI带来的风险不容小觑,生成式AI的可信度、隐私保护、安全性等问题亦引发空前争议。

数据隐私日作为一项全球倡议,是对数据安全和隐私保护不断变化的挑战的重要提醒。随着全球范围内数据泄露事件的激增,尤其生成式AI在越来越多的企业中被广泛采用,该倡议变得愈发重要,企业也在不断加大数据隐私领域的投入。根据Gartner的预测,到2024年,大型企业机构的年均隐私预算将超过250万美元。

可信AI的关键在于可信数据

鉴于生成式AI取得革命性突破,各行各业争相布局,涌入产业创新快车道。根据IDC预测,到2026年,中国40%的企业将掌握生成式AI的使用,共同开发数字产品和服务。其中,聊天机器人、自动报告生成和个性化电子邮件都是生成式AI推动创造力和生产力并改善客户体验的典范。然而,值得注意的是,人工智能/机器学习模型的质量取决于它们所训练的数据。因此,打造可信AI的关键是拥有可信数据。

随着企业希望在整个业务中部署更多的人工智能和机器学习(ML)技术,对可靠数据平台的需求在不断增加,以帮助其跨所有环境访问数据。AI/ML的技术发展甚至让企业能够从非结构化数据中提取价值,这使得所有数据的管理、治理和控制变得至关重要。如果企业数据平台内拥有可信的数据,那就为建立AI大模型奠定了基础。

此外,越来越多的企业希望实现数据民主化,即降低数据访问门槛,授权合适的员工访问合适的数据,以此提升运营效率。当数据的边界扩大,对于数据隐私和安全治理也提出了更高的要求。

为了确保AI生态朝向正确的轨道健康发展,需要不断完善的立法支撑。近年来,我国陆续颁布实施了《网络安全法》《数据安全法》和《个人信息保护法》等法律法规,组成了数据安全领域的“三驾马车”。在此体系基础上,数据安全和隐私保护得到了政策和市场需求的双重推动,产业正处于快速增长阶段。

现代化平台成为数据隐私的“安全保镖”

基于日益完善的法律法规,企业也必须不断发展自身的数据系统以满足数字时代的新需求,重新思考他们所采取的措施,来确保数据的隐私安全。为了应对数据安全和隐私风险,企业必须在制定战略和计划时将数据安全和治理放在首位。投资具有内置安全和治理功能的现代化数据平台和工具,可以帮助企业以安全和符合监管要求的方式实现数据民主化,同时成功训练企业人工智能/机器学习模型。

总之,数据隐私问题变得愈发复杂,如果不及时采取现代化措施保护数据安全,可能导致企业面临法律、金融和声誉等风险。企业需要将数据隐私嵌入到其运营结构中,将其作为核心功能,并通过人员、流程和企业数据管理技术来提供支持,以确保其客户、合作伙伴和最终用户的数据隐私得到保护。而且,数据隐私保护必须成为一种主动的战略性功能,主动防御而非在数据泄露之后进行补救。

Cloudera建议采用六步方法来构建安全的数据基础——找到数据、加密、管理、溯源、检索、以及发送警报。无论数据位于何处,Cloudera都能帮助客户检索和定位所有数据,并通过令牌化或加密来保护数据。此外,通过数据溯源,能够轻松进行审计跟踪和访问控制,确保合适的人访问合适的数据。一旦发现有违规行为,便会立即发送警报,阻止企业数据被不正当使用。

Cloudera的数据平台(CDP)使构建、部署和管理机器学习应用变得更快、更容易,而且更安全。通过降低成本和简化操作,CDP减少了在整个企业中引入新数据隐私用例所需的时间,其安全和治理功使企业能够在公有云、本地和私有云中的任何地方控制数据。基于这样的现代化数据平台,企业将能够获取完整、可信的数据,进而利用人工智能加速业务创新与安全转型。