降低误杀率 八个技巧改进邮件过滤

垃圾邮件——扰乱我们的生活,浪费我们的时间,带来更多恶意软件——让我们遭受更大的破坏。根据Ferris研究中心统计预测,在2008年将有近40万亿的垃圾邮件被发送,从而进一步导致近140亿美元的利益受损。而在2007年,这一数字分别为18万亿垃圾邮件和30亿美元,增长之快,令人吃惊。

图1:垃圾邮件对企业的影响

图2:垃圾邮件对个人的影响

  理论上,垃圾邮件过滤器可以拦截垃圾邮件,允许“良好”或者“真实”邮件进入邮件系统。但是过滤器也有出错的时候,垃圾邮件过滤器不可避免的一个副作用就是误报(false positive)和漏报(false negative)。

  一般而言,当垃圾邮件过滤器检测出某个邮件为垃圾邮件时,要么阻止其进入邮件系统,要么对其进行隔离,放置在一个专门的文件夹里,以供用户手动识别并删除。对于后一种方法,它需要人工的参与,会消耗用户一定的精力。实际情况是,有一些用户从来都不会去检查这些隔离区。

  另外,Ferris研究指出,用户删掉垃圾邮件所承担的成本大约在0.04美元每封。但是该研究所分析师Richi Jennings 也指出,查找丢失的有用邮件所承担的成本远远大于删除所花费的成本,大约每封为3.5美元。更糟糕的是,过滤器漏报、误报给用户带来的损失则会更大。下面,我们将先浅述有关垃圾邮件过滤器方面的技术。

为了尽量减少过滤器导致的误报,我们需要先了解它们的工作原理。

图3:垃圾邮件过滤体系结构中的邮箱过滤

  ●基于关键字和 Bayesian 过滤器

  最早的过滤器,主要是检索邮件主题和正文中的关键字,更高级些的过滤器,则采用了Bayesian算法,可以针对邮件提高过滤准确率。

图4:贝叶斯垃圾邮件过滤

  ●Captcha技术

  CAPTCHA 是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机和人的公共全自动程序。在一个CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。此种技术可以防止通过软件自动发送垃圾邮件的产生。

图5: CAPTCHA验证码

  ●建立垃圾邮件黑白名单

  与刚才讲的技术不同,这个是根据邮件服务而不是根据信息进行评估筛选,尤其是根据发件人以往行为记录进行分类管理:

  黑名单是由世界各地数据库搜集来的,过滤器会根据这些黑名单检查每个进入的邮件,如果符合,那么就会拒绝接收邮件。

  白名单同样也是来源于各地IP汇总。邮件过滤器一般既拥有黑名单又拥有白名单,以提高过滤效率。

  在某些情况下,过滤器厂商会使用“信誉服务”或者“声誉名单”来区别他们的名单。

图6:先进的黑、白名单机制

  ●Graylisting系统

  收件人邮件系统暂时性拦截未名邮件,然后对该邮件发送者发送一封要求自动回复的邮件。一般而言,通过这种方式可以一定程度上阻止垃圾邮件的侵入,毕竟他们可没有耐心再发送一封回复邮件。

  ●Tarpitting

  tarpitting是降低发送垃圾邮件的发件人大量发送电子邮件信息的方法。该方法的目的是维持合法用户在发送邮件时服务的高质量,但是由于这个方法的低反映率,使它不适用于发送垃圾邮件的人。

  ●循环模式检测(RPD)

  着重分析垃圾邮件发送的样式,RPD技术主要用在垃圾邮件侦测中心内,主动侦测与收集垃圾因特网上的邮件爆发行为样本,实时动态更新垃圾邮件攻击信息,发布给企业端的垃圾邮件网关服务器。Commtouch对于不安全行为引起的网络爆发有着直接的最有效的效果。

图7:循环模式检测

 

八种消除过滤器误报的方法

  一、使用垃圾邮件过滤器

  误报,会让你不明确到底哪些是垃圾邮件哪些不是。如果没有过滤器的话,更会有误报、漏报的发生。当你收到很多类似垃圾邮件标题的邮件时,很可能会全部选中进行删除,而事实上,这其中很有可能有你需要的邮件。因此,要消除误报的发生,更应该使用过滤器。

  二、在非保护区安装垃圾邮件过滤器

  在计算机网络世界中,非保护区(Demilitarized Zone ,DMZ) 指的是通过防火墙而独立于其它系统的部分网络,为了实现在保护内部网络的安全同时,又可以保证需要放置在 Internet 上的服务器的安全,防火墙只允许部分类型的网络流量进入或离开。

  在包含 DMZ 的网络中,所有互联网流量通过互联网或外部防火墙进行传送。这里的防火墙只允许 Web 流量和 Internet 邮件通过 DMZ 区域。内部防火墙允许电子邮件流量和数据库连接通过 DMZ 服务器。这样,系统管理员可以确保只有从安全 DMZ 服务器上调用的电子邮件流量和数据库能访问公共信息。

图8:DMZ:非保护区(DeMilitarized Zone in Networks)

  三、放弃使用过时的垃圾邮件过滤技术

  道高一尺,魔高一丈。传统的垃圾邮件过滤技术已经不能胜任现在的需要了,我们建议用户采用最新的过滤技术,以保证邮件安全。

  四、适时更新白名单

  白名单是动态的,每个用户在社会生活中总会有新的联系,相应的可信任名单也会有一定的变化。这就要求对白名单进行不定期地更新。

  五、使用实时黑名单

  如果你是通过使用黑名单来阻止垃圾邮件的话,那么你必须慎重对待。因为过时的黑名单,很可能会让你错过一些有用邮件。实时黑名单(realtime blackhole list,简称rbl)技术是一个可供查询的ip地址列表,通过dns的查询方式来查找一个ip地址的记录是否存在来判断其是否被列入了该实时黑名单中。

  六、保证自身不发送垃圾邮件

  如果你不幸发送了垃圾邮件,想必你的声誉肯定大受影响,而且很可能会被加入到黑名单之列。进而,可能会影响到你发送一些日常邮件。为此,下面三种方法可以帮助你保持良好声誉:

  使用某个可信任安全厂商的Web检测或过滤软件,并制订所使用的环境政策。

  及时安装安全补丁,并定期查杀病毒。

  使用出站过滤机制,全面扼杀垃圾邮件。

  七、使用用三元分类技术

  过滤垃圾邮件,企业的更好选择也许是放弃传统的二元分类法(恶意或未知),转而采用三元分类法:恶意、未知、已知善意。利用三元分类法,恶意信件(如垃圾邮件和网络钓鱼)仍可以被阻止或隔离,而进入收件箱的所有其他信件将根据所感知的合法性进一步分类。

  采用三元分类法后,最佳信件将绕过垃圾邮件过滤器,只有没有得到声誉服务支持的信件或普通信件,接受自动的垃圾邮件过滤。通过过滤器的信件将出现在收件箱中,不加任何特殊的标记。信任图标被保留给已知的、善意的、享有良好声誉的电子邮件(它们都绕过过滤器)。

图9:用三元分类阻止垃圾邮件误报

  八、留心关键字

  假设你在机场排队等候安全检查的时候,与朋友讨论武器炸弹或者劫机,那么你肯定会遇到麻烦。同样的,在你的邮件中也应该避免使用类似的关键字。

  虽然基于关键字的垃圾邮件过滤效果并不太理想,但是,这并不能让我们心存侥幸而滥用一些关键字。理智的做法就是,尽量避免使用这些危险关键字,否则,你的邮件就很可能被过滤器识别为垃圾邮件。

  反过来说,你的邮件中也应尽量避免包括收件人信息的关键字,比如个人的私密信息。这样做的好处是,可以减 少被Bayesian分析并标记为非法邮件的可能。