基于神经网络和词共现模型的垃圾邮件分类器研究-计算应用技术专业论文.docx
文本预览下载声明
摘要
摘要
PAGE
PAGE 3
摘 要
互联网已经成为现代生活中不可分割的一部分,互联网时代人们之间的联系交流日益紧密, 电子邮件作为非常重要的非即时联系方式,显示出越来越高的重要性。但是由于电子邮件现有 的收发协议的缺陷以及利益的驱使,导致了目前互联网上垃圾邮件泛滥成灾。越来越多的垃圾 邮件侵占了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的 正常工作、生活和学习。如何有效地治理垃圾邮件问题是全世界共同面临的一道难题,也是目 前互联网上亟待解决的问题。
目前,经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、基于规则的过滤以及 基于关键词匹配的内容扫描等。另外还有一个研究方向就是从电子邮件的文本内容入手,使用 文本分类算法,对邮件进行分类。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k-近邻、 决策树等。近年来随着小型计算机性能的提高,基于神经网络的分类方法研究也越来越多。张 铃和张钹教授于1999提出的交叉覆盖算法,也是神经网络算法的一种。交叉覆盖算法是利用了 M-P神经元模型的几何意义得到的一种领域覆盖的算法,它在一定意义上考虑到了网络结构的 优化问题,可以使得产生的神经网络的规模较小,而且方法实用、可行,解决了多年以来一直 未能很好解决的前向网络设计问题。
传统的基于内容识别的垃圾邮件过滤方法主要采用向量空间模型来表示邮件文档。向量空 间模型假设词与词间不相关,以向量来表示文本,从而简化了文本中的关键词之间的复杂关系, 文档用十分简单的向量表示,使得模型具备了可计算性。向量空间模型把文档简化为以词为单 位的项,每项都有权重,项即是向量空间中的维度,权重即是维度的大小。这样每篇文档就被 表示为一个n维空间中的向量,就可以通过空间向量的运算来处理文档,使得问题的复杂性大 大降低。但是这种表示方法是以词与词之间不相关为前提,模型没有考虑文档中上下文词语之 间的语义联系。而词共现模型是一种以统计为基础的自然语言处理模型,研究发现,两个词经 常共同出现在文档的同一窗口单元(如一句话、一个自然段等),则可以认为这两个词在意义上 是相互关联的,并且共现的概率越高,其相互关联越紧密。基于这样的思想,本文将传统的向 量空间模型和词共现模型结合起来表示邮件文档,在传统方法的基础上,增加使用词共现模型 选取出的一部分词共同构成向量空间来表示邮件,再采用交叉覆盖算法构建垃圾邮件过滤分类 器。实验表明,本文提出的方法能够提高邮件过滤的性能。
纵观全文,主要做了以下工作:
基于神经网络和词共现模型的垃圾邮件分类器研究
基于神经网络和词共现模型的垃圾邮件分类器研究
1)分析了现有的邮件过滤技术,并做了归纳总结。
2)提出了基于词共现模型和向量空间模型的邮件表示方法,以及在此基础上的垃圾邮件 过滤模型。实验表明此模型的过滤效果要比传统方法要优。
3)针对词共现模型选取的维度和传统方法选取的维度的不同参数做了详细的实验。
4)在不同实验语料集的基础上,对比了共现度度量的三种方法和信息增益方法选择的维 度的分类效果,得出了基于共现次数的共现度度量方法选择的维度最优的结论。
关键字:词共现模型、特征提取、垃圾邮件、覆盖算法、信息增益
Ab
Abstract
Abstract
As is known to all of us that internet has become an indispensable part in our life, communications between people are more frequent than ever. As a very important non-real-time communication approach, E-mail is of great significance. However, internet is swamped with a large number of spams because of the deficiencies of the present mailing protocols and the financial interests. A growing number of spams are taking up the limited storage, computation and network resources. Internet users have to spend much time getting rid of them, which influence and interfere with users normal work, life and study. How to efficiently deal
显示全部