上网行为管理产品选购指南之技术篇

根据核心技术选型会使自己不迷失在各种花边功能中,因为核心本身数量就不多,但同时又很能说明实力。

上网行为管理产品的确是有互联网管理的好帮手,但是个人感觉选型过程对IT部门来说都会是一个比较头痛的事情,因为这类设备干的是应用层的活,没有RFC或者IETF可以参考,所以功能琳琅满目。

从功能提供上判断只是第一步的工作,因为各个厂商所提供的未必真能做得到;小流量测试做到的,大流量的生产环境下未必还能有效。此时就需要能够透过现象看本质,考察其核心技术的实现能力和成绩。毕竟核心技术的提升不是一蹴而就的事情,能把核心技术做到较强说明其研发实力和后期的改进能力也会比较强。

通过一段时间,与几家国内外厂商的接触,笔者现在基本了解了这类产品的工作机理和一些核心技术,下面就我的理解来谈谈该从哪些核心技术入手,如何简单地评判这些核心技术的好坏。

一、 用户识别与认证背后的核心技术:

透明识别和联动认证技术

机理就是通过对携带用户信息的报文进行解析,从中准确地抽取出用户信息,作为上网者的身份。他的难点在于多种认证报文并存时要能够逐一地识别出来是比较难的,其中最难的应该是对PPPOE账号的提取,因为他毕竟不是标准的以太网格式。

为什么这是一个核心技术?因为这个技术需要大量的客户积累才能完成,数量越多说明核心技术越强,毕竟厂商一般不会自己编一个联动认证出来,是需要较多的客户提出后才会去做的。

为了验证这一点笔者特意安装了一个Load Runner来模拟海量的认证报文拨测了各个产品(切忌这个环节千万不可以单用户测试,你肯定不想周一的早晨电话被打爆),效果区分比较明显,各位IT同仁有兴趣可以自己试一下

当然如果觉得Load Runer 麻烦还有一个偷懒的方法,那就是看运营商采用哪个产品多。因为运营商很注重4A,并且对性能要求高,运营商认为认证可用,那你的也应该可用。

二、 网页识别与过滤背后的核心技术:

网页分类技术、网页分类库

实现机理是厂商自己建立一个搜索引擎爬虫,每天到处爬网站。对爬下来的网站进行语义分析之后归档到自己的分类库,在设备中引用。

为什么说这个技术是核心技术?因为这个技术是目前网页过滤领域公认的比较靠谱的技术,是网页过滤的基石。目前国外做的比较好的是Websense,国内做的比较好的是网康。经过了解后发现,这个技术实现起来还是比较难的,因为爬大量的网站并且能够进行语义分析都是需要人力、财力和时间积累,不是几天能够做的出来的。

当然这也有一个偷懒的方法,那就是看看厂商标注URL分类库的大小,越大的肯定经营的时间越长,积累越多,一个产品不好的厂商很难投入人力,财力来搞这个东西。目前了解到的的最大库应该是网康的2000万条。

这里还要说明一些选型误区

其一:有些厂商说URL库没有用,说他们的设备可以实时、智能地基于网页内容判断是否应该过滤,我可以告诉大家这是骗人的。因为经过刨根问底,发现他们用的就是关键字匹配技术,这个技术估计一个刚毕业的学生2天就可以编出来。但关键字根本无法识别语义,哪敢用啊。如果关键字匹配要是真的能和搜索引擎分类技术平起平坐,那估计中国早就有几千个百度了。

其二:有些厂商说他们可以过滤HTTPS网站,经过单机测试还真可以用。但采用Load Runner测试时就发现性能急剧下降。原因就是因为这是一个中间人代理技术,效率极低。而且更重要的一点是仅仅接了5个同事的网进行Gmail审计,结果每个人都问我,你是不是搞什么东西了,Gmail不断地弹出提示框说证书不合法,收发一封信要点十几次鼠标进行确认。这要是让业务部门发现了还不投诉到天黑。

经了解其实URL库大的厂商他们也都能做这些,但是他们并没有把这个当成亮点,还比较厚道。

三、 应用识别与控制背后的核心技术:

DPI、DFI、应用协议库

这个核心技术的机理就是从不加密的报文中找到明文特征字来标识一个应用,对加密的报文找到数据流的模型特征,例如包长,连接数等。最近还听说网康提出了一个XAI 技术,说是可以根据P2P的文件类型进行流控,这个还挺有意思。

衡量这个核心技术的好与坏也很简单,一方面看应用库的大小,另一方面看应用库中每个应用彼此独立,因为有些厂商协议库号称800多,但是一个QQ传文件就45个协库列表,这个很不靠谱。

核心技术选型小锦囊:

1- 不要轻信单机测试:因为很多花哨的功能单机测试都可以,但大规模应用后设备可能不可用。

2- 关注需要长期积累才能见成效的关键技术:

a) 看透明用户识别的种类:用Load Runner测试,了解运营商大量使用哪个产品

b) 看网页过滤效果:用Load Runner测试,比较URL库的数量,看厂商公示的更新频率。因为这个是不专业产品难以短时间做出来的。

c) 看应用过滤效果:应用协议库数量,协议间的独立性,看厂商公示的更新频率。能够识别P2P文件类型更好。

d) 看外发内容过滤效果:关注关键字的数量,是否可以建立超过1000个以上的关键字库,并且外发信息没有明显时延

3- 不要被引入理论上的误区:

a) 贬低URL库,高调宣传实时网页关键字匹配。关键字匹配网页最终的结果就是什么都管不了

b) 强力推销HTTPS网页过滤。这个可以有,但是大规模用起来后,你的电话就会被打爆

c) 贬低X86,推崇NP,ASIC。固然后两者是性能很强劲,但是那时路由器交换机用的技术。到了应用层,带来的就是无法快速更新协议库,网页库。并且大量的应用被误识别。

希望本文能够对各位IT同仁有一个对上网行为管理选型的有一定的帮助。