靠传统URL库实现对网页的过滤先天不足

      2008年7月26日,众多媒体上同时出现了一则新闻:Google互联网独立页面数量超过1万亿。该新闻介绍:根据谷歌(Google)最新的检测数据,互联网上独立页面的数量超过了1万亿个!谷歌高管在该公司博客上撰文表示:"谷歌工程师发现,互联网上每天新增加数十亿个网页"。

  随着信息技术的飞速发展,互联网极大的丰富了人们的工作和生活。以网页为例,互联网刚刚登陆中国的时候,人们能够访问到的网络资源非常少,早期的网络用户肯定非常熟悉这样的情景:不管在任何一本杂志或者任何一个地方看到一个网址,就算是N级域名加上数层后缀的地址,大家也会认真地把这个网址记录下来然后兴致勃勃地去访问该站点。

  "忽如一夜春风来,千树万树梨花开"。仿佛一夜之间,互联网资源就以几何级数的速度在丰富着。门户网站、社区论坛、个人网页、博客、聊天网站,网络上五花八门、包罗万象的网页吸引着人们的眼球,诱惑着人们拿起鼠标去体验虚拟世界的快感。但选择越多,诱惑也就越多。

  很多员工利用上班时间进行炒股、玩游戏、QQ聊天等等,影响了单位的工作风气,降低了工作效率,这是所有管理者都不能容忍的。为避免企业为这些行为频繁地买单,上网行为管理产品以救世主的姿态出现了。依靠强大的管理能力,上网行为管理产品可以直接将影响工作的网络行为封锁掉,例如炒股软件、网络游戏、聊天工具等,还可以过滤掉和工作无关的网页、有安全隐患的网页。

  上网行为管理产品对网页的过滤主要是通过URL库来实现的。

  然而,作为上网行为管理的一个基础功能,传统URL库却有着自己先天性的不足。

  首先,传统URL库无法解决搜索引擎搜索出的网页过滤问题。比如不少单位禁止员工上班时间炒股,但员工在百度、google里搜索上市公司名称或股票代码,往往搜索的第一个结果就是股票走势图。随着搜索引擎技术的发展,内容搜索的功能会越来越强大,传统URL网址过滤该如何应对这种情况呢?恐怕只有把百度、google封掉才行。

  其次,传统URL库不能解决加密URL(即HTTPS)的问题。HTTPS原本应用于网上银行、电子商务等安全需求较高的网站,以保障数据传输的安全性。随着过滤和封堵网站产品的出现,很多色情、反动类网站也纷纷升级成HTTPS,传统URL对此类网址只有无奈。因为一旦将HTTPS全部封堵,会影响很多网上银行、网上营业厅(如中国移动)等正常的HTTPS应用。所以,用户在选择上网行为管理产品时,必须确认该产品是否能识别和过滤HTTPS类加密的URL及加密应用(如Skype,加密BT等),否则随着技术的发展,HTTPS和加密应用越来越多,不能对此管控的产品形同虚设。

  另外,传统URL也解决不了访问端口变化的问题。常用的WEB访问端口是80端口,但很多聊天类网址为了规避封堵,经常性的切换端口,在这种情况下,仅仅在URL网址数据库中有该网址信息,已无法实现过滤。但少数厂商并不会告诉用户这个技术缺陷,只是演示一些常用端口下的URL封堵,结果大量的聊天网站同样可以通过变化端口而照常访问。因此,用户在选择上网行为管理产品时,需要确认该产品是否具备全流量分析技术,即:不管什么应用(WEB也好、FTP也好),不管什么端口,都要能够识别和管控。

  "魔高一尺,道高一丈",其实以上问题都有技术手段去解决。但少数技术水平不足的厂商,趁着产业不成熟、用户不熟悉时,极力鼓吹传统URL网址过滤技术和其"庞大"的URL库,以此向用户宣传万能的解决方法,实在是不负责任。因为专业人士都知道,各种网络问题需要对应的技术手段全面协调以提供解决方案;而且相比全球1万亿个、且以每天数十亿速度增长的海量网页,千万数量级的静态URL库网址过滤并不全面。我们需要了解和熟悉上网行为管理技术,以此来选择中看且中用的上网行为管理产品,避免不必要的投资损失。