在《数据安全管理办法(征求意见稿)》中提到,在正常生产和使用过程中,很多环节需要对敏感数据进行共享和使用,这时候都是存在一些数据泄露风险的场景,这些场景中数据脱敏是必经环节。
法律法规和行业监管要求,对数据脱敏有相应的脱敏程度,比如匿名化、去标识化。匿名化是指对个人信息处理之后,使得个人信息主体无法被识别;去标识化是指处理后不借助额外信息的情况下,无法识别个人信息主体的过程。
什么是数据脱敏?
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
数据脱敏是数据库安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。脱敏技术中两个比较重要的概念,一个是静态脱敏,还有一个是动态脱敏。静态脱敏是对数据进行批量化脱敏,一般用在测试开发或者是对外进行完整的数据集外发的场景中,主要特点是数据会发生批量的转移。
动态脱敏一般是对数据进行实时脱敏,常用于对外提供访问接口的时候,外部可以访问我们的数据,实时获取数据的场景。有的数据有很大的流量,但是单个脱敏的时候,数据量都是比较小的,它的技术实现一般是通过透明网关等中间件技术,使得脱敏方案在用户无感知的情况下给用户返回脱敏后的数据,另外还有改写数据请求的这种方式。
数据脱敏技术的主要目标就是通过对敏感数据按照相应特定脱敏算法进行变形转换,以降低数据的敏感程度,扩大数据可共享和被使用的范围。一般脱敏算法有加解密、掩码、替换和模糊等等。数据脱敏不仅要执行数据漂白,抹去数据中的敏感内容,同时也需要保持原有的数据特征、业务规则和数据关联性,保证开发、测试、培训以及大数据类业务不会受到脱敏的影响,达成脱敏前后的数据一致性、有效性:
一是保持原有数据特征。数据脱敏前后必须保证数据特征的保持,例如:身份证号码由十七位数字本体码和一位校验码组成,分别为区域地址码(6 位)、出生日期(8 位)、顺序码(3 位)和校验码(1 位)。那么身份证号码的脱敏规就需要保证脱敏后依旧保持这些特征信息。
二是保持数据之间的一致性。在不同业务中,数据和数据之间具有一定的关联性。例如:出生年月或年龄和出生日期之间的关系。同样,身份证信息脱敏后仍需要保证出生年月字段和身份证中包含的出生日期之间的一致性。
三是保持业务规则的关联性。保持数据业务规则的关联性是指数据脱敏时数据关联性以及业务语义等保持不变,其中数据关联性包括:主、外键关联性、关联字段的业务语义关联性等。特别是高度敏感的账户类主体数据往往会贯穿主体的所有关系和行为信息,因此需要特别注意保证所有相关主体信息的一致性。
四是多次脱敏之间的数据一致性。相同的数据进行多次脱敏,或者在不同的测试系统进行脱敏,需要确保每次脱敏的数据始终保持一致性,只有这样才能保障业务系统数据变更的持续一致性以及广义业务的持续一致性。
为什么要做数据脱敏?
数据脱敏通过对数据进行脱敏,在保证数据可用性的同时,也在一定范围内保证恶意攻击者无法将数据与具体用户关联到一起,从而保证用户数据的隐私性。数据脱敏方案作为大数据平台整体数据安全解决方案的重要组成部分,是构建安全可靠的大数据平台必不可少的功能特性。
大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的隐私和敏感信息,如用户在酒店的入住纪录、用户支付信息等,这些数据存在可能泄漏的风险。
大数据平台一般通过用户认证、权限管理以及数据加密等技术保证数据的安全,但是这并不能完全从技术上保证数据的安全。严格的来说,任何有权限访问用户数据的人员,如ETL工程师或是数据分析人员等,均有可能导致数据泄漏的风险。
另一方面,没有访问用户数据权限的人员,也可能有对该数据进行分析挖掘的需求,数据的访问约束大大限制的充分挖掘数据价值的范围。
如何进行数据脱敏?
最早数据脱敏的主要是针对数值和文本这种很基本的数据类型,现在对于图片、对音频、视频都有脱敏的需要。值得一提的是,各行各业在实施数据脱敏及追求数据应用价值时,对数据脱敏业务合规性及高可用性,敏感数据的分布与管理,脱敏数据可用性,数据审计技术手段,业务操作便捷性以及项目实施周期极为关注。
针对以上诉求,国联易安通过研发推出的数据库安全脱敏系统是一款高性能、高扩展性的数据屏蔽和脱敏产品,既保护敏感数据,又满足监管合规的要求,可谓两全其美。系统尤其实现了自动识别敏感数据和管理敏感数据,提供灵活的策略和脱敏方案配置,具备高效可并行的脱敏能力,可以帮助客户快速实施敏感数据脱敏处理。系统同时可以保证数据的有效性和可用性,使脱敏后的数据能够安全的应用于测试、开发、分析和第三方使用环境。
随着信息时代的发展,我们对数据信息的安全要求越来越重视,比如对非生产环境下的敏感数据的脱敏保护。在金融、运营商、政府、能源等部门,非生产环境下数据脱敏已列入监管部门的法规要求。非生产环境数据多用于开发、测试、培训以及第三方数据分析、挖掘,如果不能有效实施敏感数据保护,极易造成敏感数据的泄露。所以,保证非生产数据的安全已经成为一个重要的课题,要求我们能够通过对敏感信息进行脱敏、变形,实现有效的数据保护。
国联易安自主研发的数据库安全脱敏系统,采用独创的脱敏算法对敏感数据进行变形、屏蔽、替换、随机化、加密等措施,将敏感数据转化为仿真数据,脱敏后的数据保留原有数据的特征和分布,无需改变相应的业务系统逻辑而受到业界的认可和信赖。
参考文献:
李呈祥,CSDN网,《大数据与数据脱敏》
Jacky,乾学院,《数据脱敏的处理方法及查询》
王卓 ,安全內参网,《信通院专家:数据脱敏为什么如此重要》