越来越多的企业选择部署上网行为管理系统,提供解决方案的厂商也有了很多。但是可惜的是,大多用户在对产品的选型上经常存在误区,或者经常被厂商的技术所迷惑,没有从实际的需求出发。这里,我们着重分析三个普遍存在的误区。
误区一:URL库是万能的
为了体现实力,很多厂商都急于向用户表明其URL库的强大,例如几百万级、甚至几千万级的URL库等。然而,对于企业而言,强大的URL库是必须的吗,真的能为企业带来价值吗?
答案是否定的。我们可以从几个方面说明。
首先,数据库的搜集是一项很耗时间和精力的工作。厂商为了跟上不断调整变化的环境,必须投入大量的人力、物力和时间在数据的维护和更新上。而这些成本,最后必将转嫁到客户身上。我们可以看到,大多厂商的URL库不是免费的。客户为了保持数据库的更新,需要不断的从厂商购买升级系统。一旦停止了更新,那么这个强大的数据库也就成了一个过时的摆设。
其次,互联网的发展是非常的快速的,每天互联网上都会涌现出成千上万的网站,包括各类门户网站、博客和论坛等。这就导致URL库的更新往往落后于网站出现的速度,无论厂商组织多大规模的团队去进行URL的资料收集,也几乎不可能跟得上网页的增加速度。
再次,一个非常普遍的技术问题,URL库不能过滤搜索引擎搜索出的网页。作为互联网最方便的工具,搜索引擎的应用非常的频繁,在一个企业的应用策略中是不会也不能屏蔽搜索引擎网站。然而,如百度、Google等搜索网站都有网页快照功能。如果一个员工想知道股票的走势图,他根本不需要直接去访问证券公司的网站,在百度、Google里搜索上市公司名称或股票代码,搜索的第一个结果就是股票走势图。随着搜索引擎技术的发展,搜索网站的功能会越来越强大。也许某一天,我们查找信息只需要登录搜索网站了,这时恐怕只有把百度、Google等都列入黑名单,才能做到有效的屏蔽。
最后,URL库不能解决加密URL(即HTTPS)的问题。HTTPS是一种更安全的传输协议,它应用了Netscape的完全套接字层(SSL)作为HTTP应用层的子层。SSL使用40位关键字作为RC4流加密算法,这对于商业信息的加密是合适的。
早先,HTTPS应用于网上银行、电子商务等安全需求较高的网站,以保障数据传输的安全性。为了阻止被屏蔽,很多受限的色情、反动类网站也纷纷升级成HTTPS。这种情况下,即使再强的URL库,也只有无奈。因为一旦将HTTPS协议封堵,会影响很多网上银行、网上营业厅(如中国移动)等正常的HTTPS应用。而不封堵,许多加密的非正常网站就不能过滤。
另外,很多厂商目前所谓的千万条的URL库,多数从国外的专业厂商购买,这些购买的数据库并不见得就是适合中国国情。
由上面几点可见,对于一个企业而言,URL库并不是万能,也并不是最有效的,URL库仅仅解决了一些网站访问问题。企业真正需要的,如何有效地保证关键业务的流畅,如何提升企业的效率,不是一个URL库就能达到目标。
误区二:P2P识别率能到99%
P2P以其独特的技术优势已经得到了迅速发展,应用也不断增长。据不完全统计,P2P应用占运营商带宽总量的60%~80%,已经成为网络带宽最大的消费者。但是,绝大多数的P2P应用都是集中在下载、视频、文件共享交换上,这些应用都在大规模地蚕食着带宽。对于一个企业来说,其带宽是有限的,非正常的应用占据太多,正常的业务就得不到保障。
于是,人们意识到越来越有必要对P2P流量和行为进行深入的研究分析,为监控与管理P2P提供支持。P2P的识别技术应运而生,识别率也就成了许多产品的卖点。诸多厂商都在宣称其P2P的识别率能达到99%,并以此作为标准。事实上,且不说这99%是否真的能达到,即使达到了也并不一定能为客户带来实际价值。
典型的P2P识别技术,一般有下面的三种:
1. 端口识别
早期的P2P应用大多数使用固定端口,在此情况下对其识别方式与识别普通应用的方式完全相同。检查报文分组的传输信息,如果端口号与某些特定的端口号匹配,则该报文即为P2P流量分组,可以按照预设的动作对其进行处理。这种方式在P2P应用使用动态端口后已不再适用,目前只是个辅助的方法。
2. 特征识别
当许多P2P应用使用随机端口(有些甚至使用HTTP,SMTP等一些常见端口)来掩盖其存在,识别难度也就增加了。因此,人们提出了通过检查分组内部携带的负载信息进行分组识别的方法。即对常见的P2P协议的特征进行分析,提取特征信息,根据特征信息对报文进行模式匹配对比,从而判断出该报文是否属于某一类P2P应用。
这一方法是目前最主要的方式,但是只能针对已知数据格式的P2P应用进行识别,而且由于需要对分组内部数据进行全面的检查分析,实现效率较低。另外,一些P2P应用开始以密文方式进行数据传输,面对这种情况用户特征识别方式则完全无能为力。
3. 连接模式识别
基于观察源和目的IP地址的连接模式,可以发现一些模式是P2P所独有的,由此可以将P2P流量识别出来。大约2/3的P2P协议同时使用TCP和UDP协议,而其他应用中同时使用两种协议的仅仅包括NetBIOS、视频等少数应用。另外,当某一P2P主机和其它主机建立连接时,对端口而言,与其建立连接的IP地址数目就等于与其建立连接的不同端口数目。对这两种特殊模式的扫描追踪,就能识别出P2P应用。
相对于端口识别和特征识别,连接模式的识别需要做更多的分析。只有在系统收集到了足够的数据,经过了很长时间的智能模型建立,才能非常有效的进行识别。
以上就是三种目前比较主流的P2P识别方式,此外还有些其它的如流量模式识别、IP组合识别等方式。但不管哪种方式,其核心思想都是对现有的P2P协议进行分析和对比。相对于URL库,P2P协议的变化和更新是比较慢的。即使这样,想把识别率做到99%也是不可能,因为协议本身就有许多是不可分析,更何况一直是在变化的。所以说,99%这样的说法,只能算是个口号。
误区三:流量封堵
谈到流量封堵,很多厂商都在上网行为管理中加入了流量控制模块。该模块最明显的应用主要是从限速、禁用的角度出发,针对个人、部门进行主动管控。初看之下,这是个很好的方式,可以对员工的上网行为进行有效的截止。
让我们回到需求者的角度。不是所有的应用单位都希望采取这种强制控制的手段,要知道随着不同部门、不同级别、不同时间,以及工作性质的区别,应用到每个时间段的对象都各不相同。在此,需要考虑的是一整套切合该单位的策略规则如何设定;如果不细化策略,是否能满足全体员工的合理分配需求;当企业单位发生人事变迁时,策略调整又该如何进行?
除此之外,非关键业务部门的临时应急需求得不到IT管理上的急时响应,如在急需处理过大的图文信息传输时,无法随时获取空闲带宽资源,只能在局限的流量状态下空等。不仅占用了接收双方的时间,也浪费了企业现有的资源。
真正的流控手段,应该是基于关键业务的保障,并能够按需灵活分配带宽资源,把企业在管理和效能上的应用价值提升上去。