贝叶斯网络模型在反垃圾邮件中的应用.pdf
文本预览下载声明
2009 年 第 3 期 计 算 机 系 统 应 用
①
贝叶斯网络模型在反垃圾邮件中的应用
Bayesian Network in Anti-Spam System
张兵利 裴亚辉 (河南科技大学 电子信息工程学院 河南 洛阳 471003)
摘 要: 近些年,网络上的垃圾邮件肆意横行,令人深恶痛绝,因此反垃圾邮件就成了亟待解决的问题。而贝
叶斯网络理论的研究为反垃圾邮件指出了一个明确方向。贝叶斯推断理论提供一种概率手段,为数据
建模提供了个统一的框架,而且它为算法的分析提供了理论基础。本文在对贝叶斯网络分类模型形式
化描述的基础上,设计了一个基于贝叶斯分类器的反垃圾邮件模型。实验证明,利用基于贝叶斯分类
器的反垃圾邮件模型对邮件进行分类时可以获得较高的准确率和不错的查全率。
关键词: 数据挖掘 信度网 贝叶斯网络 贝叶斯分类器 反垃圾邮件
J.Pearl 在 1986 年提出的一种基于概率的不确定 值依赖于其父结点的取值状态。
[1]
推理网络,1988 年正式提出了贝叶斯网络 。贝叶斯 这里,学习贝叶斯网络的问题描述为:给定 Xi 中
分类模型建立在经典的贝叶斯概率理论与贝叶斯网络 的一组实例构成的训练集合D X X 1,X 2 , ,X n ,找
技术基础上。它是从传统的统计学中分离出来的,对 到一个与 D 匹配最好的网络 B。这样,学习贝叶斯网
不确定性问题进行处理的一个有力工具。 络的问题转化为优化问题。这时类变量和属性变量不
加区别。
1 贝叶斯网络模型的描述 实际处理这个问题的方法是在可能的网络构成的
贝叶斯网络(BN) ,又称为信度网,由一个有向无 空间中进行启发式搜索。搜索成功的关键是确定一个
环图(Directed Acylic Graph, DAG)和条件概率表 合理的评分函数,评价网络对训练数据的匹配程度,
[2]
(Conditional Probability Table, CPT)组成 。 以指导搜索。
贝叶斯网络分类模型(BNC)的形式化的描述如下: 有两种主要的评分函数[3] :贝叶斯评分函数和最
n 元随机变量 X X 1,X 2 , ,X n 的贝叶斯网络模 小描述长度原理(MDL :minimal description length)
型是一个二元组B (B ,B ) 。Bs (X ,E
显示全部