11月24日,由商业价值价值和ITValue联合主办的2012中国大数据创新峰会今日隆重开幕。大会吸引了500余名企业高管、以及多位来自政府、媒体、学术等行业人士参会,就大数据的发展趋势、数据的挖掘分析、大数据推动商业创新等热点话题互动交流。
在下午的分论坛中,Websense网络安全技术研发中国区技术总监陈纲先生为大家坐了《大数据时代下的数据安全管理》的主题演讲。在会中,他讲道:
我们会覆盖在大数据相关的价值体现以后的相关数据安全文化,这应该说是我们前段时间在跟一些企业老总聊的时候非常重要的一个话题。后续的结果应该如何保护?如何防止在各个行业之间、各个部门之间甚至相关的重要岗位之间的交互使用过程中防止泄露,这是很多老总们得到大数据价值后容易思考的问题。
在各式各样的类型中我们会看到各式各样的信息,包括他的交易习惯、关注点是什么,随着这些结果出来以后,无疑可以帮助我们的企业经营决策,在这个过程中,越来越的主管就会开始想象,我的分析结果如果给我相关的合作伙伴里又会带来怎么样的商业价值?或者说给我企业本身的竞争会带来什么样的影响?这真的是我们特别担心的问题。
在大数据的高价值分析结果体现的时候,我们不得不关注数据安全的管理项目,当我们呈现大量数据的时候,诚心出大量有价值的报表、成果、预测的模型的时候我们如何做好保护?当看到大数据的时候很多人都觉得它非常庞大,我们很难在非常短的时间内把所有的数据保护起来,然而大数据本身也会给大家带来一个疑惑,就是大数据是不是都有价值值得让我们全部保护。
更多的用户会侧重于把热点营销的分析数据进行重点的保护,简单说就是化整为零,我们对原数据的看待和分析结果的看待是分开看的,围绕重点分析、重点业务在一些特别重要的城市、特别重要的岗位得到的一些价值体现,它的分析成果是真正值得我们有效监管、有效保护和有效分析的,那么由此而来我们会发现我们保护的重点会从大的面上直接跳到企业现阶段对他的商业价值最重要的核心数据上,这就真正帮我们体现出能够在大数据中间抓住最核心的信息。
这里不能不谈到一个概念就是数据泄露的防护,这个概念在国内外都已经非常火了,在过去的2年内,Websense和中国,尤其是金融行业很多客户都有大量的合作,现如今很多互联网公司是大数据的代表,开始不断涌现出新的与数据保护相关的想法。
我们一直讲这些大数据体现价值的时候需要不断的深入挖掘,不断的分析从而得到我们想要的信息,然而在这里数据泄露防护上同样有着相似的做法,就是如何在海量的数据中快速定位出那些高价值数据,这里面离不开深层内容分析的技术,从而帮助我们对多种数据存在的形态进行分析。对一个企业来讲,你不得不看我如何对这些高价值数据进行有效的识别和检测,就像我们每天处理的数据、访问的数据、编辑的数据,或者是网络中传输的相关信息,甚至包括我们从用户端收集上来的信息,这些交互信息你如何快速定位出来?这里我们有三个简单的方式让大家快速理解。
第一,描述,描述通常会对大数据的很多源数据进行有效判断,利用运营商特别关注通话的详单,对于很多互联网公司会在意用户的交互数据,这样的信息量非常巨大,单条的记录根本体现不出它的价值在这样的情况下我们会通过描述的方式告诉系统什么是此类数据,从而快速定位到它。
第二,登记,可以帮助我们把企业里最重要的信息录入进去,这里不得不谈到,很多高价值的报表、财务分析的结果甚至大数据的输出可以利用类似登记的方式让系统了解它相应的衍生产品是什么样的。
第三,学习,很多时候我们都说这个数据应该怎么保护或者应该如何识别,这是人用自己的经验判断的,那有没有更好的方法呢?你不妨把这个信息交给数据保护系统,让它自己学习去判断这些数据的共同性是什么,从而使它可以更简单的对它进行判断。
数据描述,大量的交易数据、通话详单甚至传统行业会用到的地理坐标,这些信息大批量出现的时候我们可以利用数据描述的方式告诉它什么样的情况下被称 为是交易记录,以这样的描述方式让我们以很自然的方式得到这个信息,从而让系统知道当这样的信息大范围传输的时候值得我们关注。
同样可以看 到数据登记的方法,我们叫它做指纹,你所留下来的不是指纹的图,而是它们之间的不同特点,在数据登记如果用指纹方式学习的时候,概念很类似,当我们在大数 据整个群集中不断提炼结果的时候,分析成果、样式、报表甚至整个数据挖掘的设计是如何来完成整个过程的设计文档,你都可以利用类似登记的方式让它有效地了 解到这类数据的特点是什么,我的典型客户行为是什么样的,往往很多类似的结果最后的输出会又回到这样的数据系统,或者回到某些特定的业务系统,或者回到非 结构化的文档上,在这样的情况下利用类似数据登记的方式让我们对这些摘要信息进行有效的学习,他就会很清楚的知道有人拷贝了这段设计内容,这些东西都是来 自于某一个分析成果的某个部分,帮助我们训练定位到这方面的某些问题。当然,不仅如此,它同样可以对企业自己认为自己价值最大的信息进行保护。
其 实刚才百度也谈到,对于互联网公司最大的价值是他的人,现在越来越多的公司跟Websense合作的人都说,我所保护的数据甚至包括人员信息、我员工的资 料都是重点,我们曾经在08年做过一个项目,当时制造业的项目甚至说,我有一些重点的国家项目,他的整个项目组的人员资料都是非常、非常重要的,不能随便 泄露出去。
机器学习,我们不断的希望机器能够取代人在某方面做更多的事情,学习也是一种,你不妨交给机器让它知道相关成果的特点是什么,在 这里我们经常会讲到很多企业都会有类似于生产的月报、周报、季报等,很多财务数据也会通过这样的数据得到自己的分析,这张报表除了整个表格的形式以外,几 乎没有的数字之间是有关联关系的,这就不得不使我们要看看有什么样的方式对这类信息进行有效的监管,机器学习可以由它来进行相似度的检测,包括会议纪要, 在这样一些相关的会议纪要的时候,我们给系统,系统学习完之后就会知道这种格式呈现的时候就是会议纪要,甚至可以知道这是高层的会议纪要,从而帮助我们更 准确地对这些类似的分析报告进行有效的监管。
OCR,语音识别现在已经火热到无法阻挡的地步,然而ORC技术开始让人慢慢有点被人忘掉了,很多年以前大家都会看到说我们有很好的方式可以把印刷 的方式变成文字,很高兴我们现在把它应用到泄露信息防护到,因为很多内部资料的外发往往是截图、拍照,面对这样的状态的时候我们如何进行保护?之所以会发 生这样的状况很重要的因素是因为,图这个东西很少有技术会分析,Websense的数据安全当进行企业数据保护的时候,真的会看报表里的文字是什么,当它 符合一定的价值的时候,会根据数据安全的要求进行匹配,挑出某些图片里的信息是否有问题,尤其在邮件的通道上的泄露,类似的ORC可以非常有效地帮助我们 发现这个问题。
点滴泄露,这个词来源于什么?我们有一个客户跟我们说,我们有的客服天天在处理一些信息,每时每刻都在把这些信息向外发送,我如何知道它的恶意是什 么?包括一些木马,然而你无法发现,因为他每次的量太少,于是有人说你能不能帮我检测一段时间内发生的少量但是多次的泄露场景,这样就可以有效的发现一些 恶意的行为。
当我们不断关注数据中心、关注数据存储的核心区域的时候,我们不得不看到数据最终的交互点在哪里。从数据泄露途径每年的统计、分析来讲,无论是四大 所做的分析还是其它行业分析机构得到的统计,我们都会看到网络、终端最终都是最容易导致数据泄露的边缘区域,于是我们想到可不可以在企业的网络通道上,尤 其是业务最需要用到的通讯渠道,利用Web、邮件,甚至我们的加密通道传输,看看这里面有没有敏感信息的泄露,这都是我们讲的从你的网络覆盖面应该如何看 待的问题,当然最重要的是我们如何把这些问题捕获到、防止它离开你的企业,这才能真正帮助我们解决相应的问题。
很多人每天都在处理你的数据,无论是客服人员还是数据分析人员,又或者很多企业的高管,他们都在接触这些数据,这样一些数据出现和使用的过程中,如 何从终端层面防止它的泄露?防止它成为你泄露的渠道?这些问题都是很多企业在做出呈现以后不知道如何保护的,这恰恰是Websense不断希望能够给我们 客户带来新的思考点,让我们去更好地看待这些问题,看如何进行相关的保护。
在大数据数据中间我们不断谈数据挖掘,说从相应的问题里如何发现最具价值的信息,从数据泄露防护的角度上讲也是一样,你的泄露事件的管理同样无异于 一种深度的信息挖掘,那如何在这中间挑到你感兴趣的?我们不妨给客户呈现出更具价值的统计报表,例如基于地理位置,经常听到人谈到说我们有很多用户的信息 会通过采集地理位置、地理信息来得到信息,数据泄露也是一样,如果我们能够呈现出你的机密数据曾经被送到互联网上或者整个企业外部某个国家特定的服务器上 的时候,企业高管可以看看我们公司在这个地区有没有相应的业务,没有的话那数据怎么去那里了?这可以帮助他发现有些数据的泄露是不是我们企业所担心的。通 过这样的方式可以快速地让我们定位出我们感兴趣的泄露问题,从而帮助企业的经营决策决定是否应对此类行为进行有效的阻挡和限制。
工作流,这是现在越来越多的企业关注的,很多企业都在谈到这个状况,一个企业在如何应用这些技术的同时把流程做好,数据防护也是如此,要真正让这样 的技术跟你的企业日常运维结合在一起,这才是最重要的。我们发现这样的工作流可以使得我们所有的工作人员不需要每天面对我的计算机,我甚至只需要通过邮件 的方式对相应的泄露场景、泄露事件进行有效的处理,无论是审批释放、反馈领导或者别的,我都可以这样做。
面对泄露的威胁,很多企业都想到,我们最需要担心的往往是黑客的行为,或者是很多恶意的行为,然而在很多企业根据真正自己敏感数据外发进行罗列的时候,你会发现很多偶发事件占了企业70%的比例,原因就是很多员工是无意识的把这些信息泄露出去了。
就 比如说云,很多人会把工作的内容上传到云里,但他并没有意识说这些信息有没有技术共享,包括我们去一家互联网公司,他们的CIO亲自跟我说,他现在很担 心,原因是微博竟然成为一个公司内部运用的平台,机器出问题了他们会直接在微博上发出去,这是很不可思议的。我们这个系统就可以很好的监管,当你要往外发 的时候,你就可以警告他这样的信息是不能往外发的,包括恶意的一些行为,无论是黑客进来以后做一些窃取的动作还是企业内部做的一些数字的便利,可能都会存 在这样的问题。这里恰恰是类似通过数据泄露防护的方式帮助我们为企业高管们提供敏感数据的可视性,让你知道你的分析成果到底传到了什么地方去,从而可以更 好地帮助我们在这方面进行有效的控制。
Websense其实是一家上市公司,美国的一家上市公司,他做的很多方案越来越多的都是针对企业的敏感数据和企业的核心数据所展开 Websense专门设计了Trito的统一安全平台,围绕企业经常发现的各种安全问题,在邮件、敏感数据等方面进行有效的统一内容分析,帮助我们发现他 相应的问题。通过整合的一种分析技术,帮助我们把它浓缩为ACE这样的分析引擎,对一些客户的数据使用行为进行判断,从而有效地进行阻挡。
Websense在北京的安全实验室可以很好地为大家提供这方面的技术支撑,我们希望给客户带来的是希望在大数据的时代下,当你们获得他的高价值信息的同时,要注意如何在你的Web、邮件、敏感信息进行有效的防范,甚至你应该把安全方案逐步扩展到云以及移动终端上。
?