分析:大数据时代 当心“黑色市场”

随着社交网络的快速发展,互联网将实时释放出海量数据。社交网络向个人用户提供丰富服务,体现出它的应用价值。但是,社交网络中的个人数据如果被任意搜索,隐私问题更加让人担忧。这里尤其要注意的是,在这样一个大数据时代,日益膨胀的数据“黑色市场”的危险性。
超出网站“使用规定”,大量数据被买卖
“大数据”最近备受关注,同时数据“黑色市场”的危险性也开始被广泛讨论。
目前,各社交网站均不同程度地开放其用户所产生的实时数据,被一些数据提供商收集。一些监测数据的市场分析机构尤其是金融、厂商、零售业等各种数据用户企业还会将这些实时数据二次应用,用于把握新产品的市场反应,检测消费者对品牌的认知度。
如果进行监测,一旦发生问题就能捕获并及时作出对应。此外,进行灾害救援的组织也对社交数据应用非常关注。但是,这些数据在采集过程中,有超出网站(发布者)《使用规定》开展数据采集,并将其出售给其他企业等行为。
黑客经常入侵服务器,盗取信用卡等的个人数据或者企业机密数据等,显然属于非法行为。而采集社交网站数据行为并非此类犯罪行为,而是被称为“灰色市场”或者更加不透明的黑色市场。他们利用Facebook、Twitter(国内如微博等社交网站)等公开开放API(应用程序接口,外部开发者便于二次应用网站部分功能以及数据库的接口),有意地采集数据,超出网站原始的使用规定。
过去5年间,公开类似的开放API的网站呈爆炸式增长。在发布者来看是一项慷慨的举措,但是利用这些API的数据采集者经常“希望得到更多的数据”。因此,发生了许多网站使用规定之外的非法数据采集行为。
有没有遏制非法数据采集行为的方法
许多人会问,能通过程序处理,杜绝社交网站的开放API被恶意使用吗?目前,尽管有遏制此类非法行为的对策,但都不是完美的解决方案。
“可口可乐”的标志随处可见。标志是可以自由观看的,但不可以任意使用。社交网站用户发布的内容,对此的访问或者转发等,就像商标一样。数据提供商或者开发者也可以查看所有数据,但是他们原本应该根据社交网站的使用规定,在二次应用之前有一道红线。但是,对数据的市场欲望超越了这道线。
当然,也存在从数据代理商处买来各种数据,组合挖掘成更加有附加值的个人信息的方式方法。实际上,通过我们在社交网站中写入的信息、智能手机显示的位置信息等多种数据组合,已经可以非常高精度地锁定个人。
基于多种数据来源,就像解码那样,然后进行拼图,挖掘出个人信息体系,仿佛就是一个黑色市场。如果,发布者能够以技术手段高速生成海量数据,那么外部数据商同样也可以挖掘出个人用户的所以信息。
2010年,Facebook曾经在API使用规定中对可索引化文件设置了限制,原因就是意识到这种方式非常容易实现数据挖掘。
普通用户需要注意什么
那么,普通用户应用社交网站,应该注意什么?
任何发布者都想掌控尽可能多的用户信息。但是,问题是哪些设定应该是必需的?用户经常在并不知情的情况下忽视一些并不想公开的数据,结果往往被各种目的所利用。可以说,大数据的黑色市场只会增加,而不会消失。所以,用户自身为了保护个人信息,在应用各类社交网站之际,需要耐心花时间去阅读和理解各个网站的隐私保护策略。