保护客户信息是所有金融公司的安身立命之本。客户信息一旦遭到泄漏,不但会对公司声誉造成长期损害,而且还会违反诸如PCI DSS(支付卡行业数据安全标准)、HIPAA(健康保险流通与责任法案)以及马萨诸塞州最近通过的隐私保护法等法律法规的要求,甚至还可能会使公司陷入诉讼和赔偿纷争。正是由于存在这些风险,所以对于金融公司来说,确保只有获得访问授权的员工才可以使用客户信息比以往任何时候都更加重要。
虽然可以采用加密技术来保护客户信息,但这种防御方法很昂贵,而且还会使客户信息变成无法使用的格式。因此,研究人员提出了一种掩盖客户信息的替代性方法:数据屏蔽(Data Masking)。数据屏蔽不改变信息的格式,使其仍可用于开发和质量测试,同时又可以提供足够有效的信息,以服务公司的客户。那么,当金融公司准备采用数据屏蔽技术时,需要考虑的关键因素是什么呢?下面是数据屏蔽最佳实践的四大要素。
确定数据屏蔽系统的部署范围
考虑采用任何数据保护机制的首要任务,就是弄清并确定数据屏蔽系统的部署范围。数据屏蔽最佳实践要求金融公司明确哪些信息需要保护、哪些员工可以获得访问授权、哪些应用程序可以使用受保护的数据以及这些数据在生产和非生产领域的什么地方驻留。虽然这一要求理论上似乎容易实现,但由于大多数金融公司运营的复杂性和业务范围的广泛性,确定敏感信息、可以使用敏感信息的应用程序和可以接触敏感信息的员工实际上是一项艰巨的任务。
另外,确定一名员工是否可以获得访问客户信息的授权并不仅仅是一个非是即否的问题。对客户服务代表来说,他们可能需要访问客户的部分信息以验证客户身份,但并不必访问客户的全部信息。例如,客户服务代表可能想知道客户社会保障号/税号或者其账单/邮政编码的后4位,以确认打电话的人确实是该客户。虽然客户服务代表需要访问这一信息来确认客户身份,但他们并不需要完全访问整个社会保障号或账单邮寄地址。确定将信息掩盖到何种程度同时仍可用于商业目的可能比较困难,而且通常还需要法律/合规性部门参与或审查。
确定要采用的数据屏蔽技术
数据屏蔽最佳实践的第二个要素是,确定采用哪些数据屏蔽功能处理敏感信息。现有的数据屏蔽技术具有多种数据处理功能,但并不是所有的功能都适合保持有效的业务上下文信息。这些功能包括:
- 不确定的随机化(Non-deterministic Randomization):使用随机生成的、满足各种约束条件的值替换敏感字段,确保数据仍然有效,而不会将数据替换成2月30日这样的日期。例如,将日期2009年12月31日替换为2010年1月5日。
- 模糊化(Blurring):为原始值增加一个随机值,例如使用一个不超过原始值8%的随机值替换储蓄账户值。
- 置空(Nulling):使用空符号替换敏感字段中的值。例如,将社会保障号404-30-5698替换为###-##-5698。
- 变换(Shuffling):变换敏感字段中的值的位置。例如,将邮政编码12345变换为53142。
- 可重复的屏蔽(Repeatable Masking):通过生成可重复且唯一的值,保持参照完整性(Referential Integrity)。例如,自始至终都使用26-3245870替换社会保障号24-3478987。
- 替换(Substitution):使用值替换表随机替换原始值。例如,从一个包含10万个姓名的列表中用“Mary Smith”替换“Jane Doe”。
- 特殊规则(Specialized Rules):这些规则适用于特殊字段,例如社会保险号、信用卡号码、街道地址和电话号码等,这些特殊字段在替换后仍保持结构上的正确性,并可用于工作流与检验和验证。例如,将“100 Wall St., New York, N.Y.”替换为“50 Maple Lane, Newark, N.J.”,其中的每个随机值(门牌号、街道、城市和州)构成一个有效地址,可以通过谷歌地图或在线地图查询服务MapQuest等应用查找到。
- 标记化(Tokenization):标记化是一种特殊的数据屏蔽形式,利用独特的标识符替换敏感数据,使信息可以在以后恢复到原始数据。例如,为灾难恢复目的而存储的数据必须在以后可以恢复,或者在业务运行过程中信息必须通过不可信的域时,标记化非常有用。