研究称移动位置数据带来“匿名风险”

研究称移动位置数据带来“匿名风险”

北京时间3月27日消息,科学家称,通过少量的地理位置信息就可以非常容易地判定一名手机用户的身份。

只要手机处于开机状态,其网络连接性都意味着用户的位置和行动可被标绘出来。这种数据会以匿名的方式被提供给第三方,从而让用户能获得更好的服务,同时也能让广告主更加精确地找到目标客户。但在《科学报告》(Scientific Reports)上的一份研究报告发出警告称,人类的运动模式具有很大的可预见性,以至于仅靠4个数据点就能判定一名用户的身份信息。

手机和智能手机应用的日益普及已经带来了一个新时代。在这个时代中,海量的用户数据已经变得能被那些管理和分发数据的公司所获得——有些时候是以“匿名”或是聚合数据集的方式而公开的。

对于广告主和服务提供商来说,这些数据非常有价值,但对其他人来说也同样很有价值,比如那些正在规划购物中心和分配应急服务的人,或是新一代的社会科学家等。但是,“位置服务”的蔓延和发展速度已经超出了人们的理解范围,使其无法明确把握位置数据能如何对用户隐私权和匿名造成影响。举例来说,卫星导航厂商长期以来一直都在使用来自于手机和卫星导航服务本身的数据来改进路况信息报告,具体方式是计算用户在特定道路上正在以多快的速度前进。

在这些计算中所使用的数据都是“匿名的”——也就是说,这些数据不会包含手机号码或个人细节信息。但有一些例子证明,有名无实的所谓“匿名”数据能通过怎样的方式与用户身份联系到一起,其中最出名的例子是AOL在2006年发布的一些数据,这些数据对2000万次匿名的网络搜索进行了概括。《纽约时报》在对这些数据略做“侦查”后发现,很容易就能判定其中一位代号为“4417749号搜索者”的身份信息。

移动轨迹

最近以来的研究工作日益表明,人类的运动模式无论看起来多么具有随机性和不可预见性,但在实际上这种随机性和不可预见性的范围都是非常有限的;事实上,运动模式能在某种程度上被作为一种“指纹”,让人能判断出人们的身份。《科学报告》上的最新研究报告指出,这些位置数据虽然只具备“低分辨率”,但也仍旧能被用作识别人们身份的独特标记。

麻省理工学院和比利时鲁汶大学(Catholic University of Louvain)的研究者对150万名用户在15个月中的匿名手机记录进行研究后发现,通过所谓的“移动轨迹”(mobility trace)——也就是每一部手机显而易见的行进路线——只需要4个地点和时间点就足以识别出一名特定用户的身份信息。

“在二十世纪三十年代,你需要12个数据点才能排他性地鉴别和刻画一个指纹。”这份研究报告的主要作者、麻省理工学院学者Yves-Alexandre de Montjoye说道。“我们在这次研究中所做的也是同样的事情,只不过是通过追踪‘移动轨迹’的方式来进行研究的。人类运动的方式和行为是如此独特,以至于只需要4个数据点就足以鉴别出95%的人的身份。”

“我们认为,这种数据的可获得性比人们想象中的要高。这些数据是指,举例来说,如果你在手机上使用WiFi网络或是打开任何应用,就会提供我们所说的那种移动数据。”de Montjoye说道。“当你共享信息时,你会看看周围,感觉身边有许多人在——比如说在购物中心或是旅游胜地——然后就会觉得这并非什么敏感信息。”

隐私权公式

这个研究团队随后又对这些数据需要具有多“高分辨率”——也就是一个位置的精度——才能更加全面地确保隐私权的问题进行了研究,并得出了量化数据。报告的联合作者之一凯撒·海德尔格(Cesar Hidalgo)称,移动数据遵循一种天然的数学模式,能被用作分析引导工具,原因是更多的位置服务和高分辨率数据已经变得可用。

“我们的想法是,在抓取这种信息的分辨率与匿名性之间存在一种天然的权衡关系,这种权衡所借助的就是分辨率和运动模式的独特性。”海德尔格在接受BBC新闻频道采访时说道。“根据上最根本的问题就在于,由于现在数据已经具有较高的分辨率,因此这种权衡就变成了数据的有用性多高与数据到底是否能够匿名之间的关系。如果你所拥有的数据是在一天以内的,那么交通流量预测服务就无法运作;你需要一个小时以内或是几分钟以内的数据。”

海德尔格指出, 想要把“移动轨迹”与某个人的身份信息联系到一起,那么就还需要更多的信息;但是,用户会通过带有地理位置信息的Twitter消息以及Foursquare等地理位置“签到”服务提供这种信息。

但报告作者表示,他们的目的是要提供一种数学上的联系——也就是适用于所有移动数据的一个公式——从而量化匿名性与数据有用性之间的权衡关系,并希望这项研究工作能激发有关“大数据”与个人隐私权的优缺点的争论。

国际隐私权保障组织(Privacy International)的山姆·史密斯(Sam Smith)说道:“我们的手机会向多个组织报告地理位置和上下文数据,而这些组织拥有不同的隐私权政策。”他向BBC新闻频道表示:“我们从这种服务中所获得的任何好处都远远不及这些趋势对隐私权带来的威胁。虽然我们被告知自己在提供多少信息的问题上拥有选择权,但在实际上,个人用户根本就没有什么选择权。”

“科学技术的发展让我们更加难以生活在这样的一个世界中:在这个世界里,人们的隐私权会得到政府的保护,得到公司的尊重,得到个人的珍爱——现在的情况是,文化规范远远落后于科学技术的发展进程。”史密斯说道。

但de Montjoye则强调指出,虽然移动数据会让人们对隐私权问题感到担心,但这些数据所能带来的利益则要大得多。“我们真的不认为应该停止收集或使用这种数据——对我们所有人来说,这种数据都能带来非常大的好处,无论是公司、科学家还是用户。”他说道。“我们已经在努力尝试不要把这种情况描述为‘独裁者’那样的情景,也就是‘我们知道跟你有关的所有事情’。但有一点是不可否认的,那就是即使没有姓名或电子邮件地址,个人数据仍旧可以被获取,因此我们需要这种情况得到相应的对待。”