阮光尘,北京大学信息科学技术学院硕士,主要研究方向为人工免疫系统、模式识别和机器学习。
朱元春,北京大学信息科学技术学院博士、中国计算机报博士撰稿团成员,主要研究方向为群体智能。
鉴于近年来垃圾邮件所引发的严重社会问题,学者们提出了众多的垃圾邮件检测和过滤方法。现有的垃圾邮件检测方法取得了一定的效果,但仍不理想。当今,研究学者从技术自身的特点提出了许多反垃圾邮件的技术和策略,诸如简单性、智能性、层次性等几个方面,我们可以得到如表1所示的分类结果。从技术部署的层级来说,我们可以得到表2所示的分类结果。由于智能型方法具有学习的能力和动态调整的功能,并且在实际的应用中展示出了良好的性能,受到了学者们的广泛关注并得到了深入研究。
智能处理垃圾邮件四法
智能型的垃圾邮件检测技术和传统方法相比体现出了更强的学习能力和调整特性。在智能型的邮件处理方法中,机器学习和人工神经网络的方法已得到了深入的研究。新兴的方法包括DNA计算、基于免疫的方法等,目前主要的垃圾邮件检测方法有如下四种。
1.朴素贝叶斯(Naive Bayes)。这是一种基于统计学的机器学习方法,也是垃圾邮件检测领域中的一种常见方法。Raju Shrestha等人利用不同位置出现的同一关键字的内部关联特性进行分类,计算关键字的协同权重(co-weighting),并取得了性能上的提高。Li et al等人提出了基于用户反馈的改进的Naive Bayes方法,获得了相对低的丢失率和较好的性能。
2.支持向量机(SVM)。 它以统计学习理论中的结构风险最小化原理作为理论基石, 通过最大化margin得到最优的泛化性能。Drucker等人实现了一个基于SVM的过滤器。他们的研究表明,SVM过滤器在使用二元特征表示方法时达到了最优的性能。
3.人工神经网络(ANN)。它模拟了人脑中信息处理的工作过程,作为机器学习领域中的一个重要分支,在许多应用领域都取得了很好的效果。James Clark等人利用神经网络自动分类邮件,开发的系统Linger在Ling-Spam corpus获得了较高的正确率。
4.基于免疫的垃圾邮件过滤方法。借鉴了生物免疫系统的机理,将垃圾邮件抽象为免疫系统中的病原体,利用负选择算法、免疫克隆等算法进行垃圾邮件的检测和过滤。以下将对这种方法进行详细的介绍。
基于免疫的处理技术
Andrew Secker等人提出了基于免疫的邮件分类算法AISEC(Artifical Immune System for E-mail Classification)。该算法旨在区分出用户感兴趣的邮件和不感兴趣的邮件。
在AISEC中,主要通过控制两个不同集合中所包含的人工免疫细胞的数量,使算法具有动态调整的特性。这两个集合分别由平凡B细胞(naive B-cell)和记忆B细胞(memory B-cell)构成。B细胞由包含有邮件主题部分和发送者部分关键字的特征向量表示。当一封新邮件到来时,被看作为抗原(antigen)并被转换成和B细胞有相同表现形式的特征向量。接下来计算该抗原和集合中B细胞的相似度(affinity),如果计算出的相似度超过了预先设定的某一阈值,那么认为B细胞识别出了该抗原并将其归类为用户不感兴趣的邮件。
Terri Oda等人将人工免疫模型应用于垃圾邮件处理,主要利用了免疫中自己/非己的检测原理和检测器的概念。在实现的邮件过滤系统中,首先从多样的来源中构建基因库。这些来源包括语言中的词汇、所收集的邮件中的词汇和词组等。在系统初始化的过程中,使用随机的方法从基因库中生成抗体及其关联的淋巴细胞。在构建的过程中,不允许相似抗体的重复产生。每个淋巴细胞除了具有抗体属性外,还有msg_matched和spam_matched两个属性与其关联,分别用于表示淋巴细胞所匹配的邮件的数目和垃圾邮件的数目。
在系统的运行过程中,使用了带权平均值的评价方法对邮件的类别进行判断。在这种评价方法下,匹配次数多的淋巴细胞在评分中具有较大的权重。为了适应正常邮件以及垃圾邮件内容的不断变化,系统引入了老化和死亡机制。
多层处理策略成趋势
随着信息与计算机技术的发展,机器逐渐将代替我们人类去做许多工作,迫切需要研究人类的各种智能行为,以实现具有某些人类智能行为的机器。人类自身具有很高的智能性,许多学者采用模拟生物机理的方式来获得较好的智能行为,如人工神经网络、人工免疫系统等。人工处理垃圾邮件方式效率低,难以处理指数性膨胀的垃圾邮件。而自动化垃圾邮件过滤方法虽处理速度快但效果却并不好。因此,如何在利用机器自动化处理的同时还保持人工处理方式的高度智能性,成为当前研究的热点和难点。
作为一种新的智能型的垃圾邮件处理策略,基于免疫的邮件过滤方法除了体现较好的自适应特性和动态调整特性,还能够及时的追踪用户喜好的变化。