一种新Rough集方法在不完备信息系统中应用.doc
文本预览下载声明
一种新Rough集方法在不完备信息系统中应用
摘要:本文提出了一种新的基于相容近似空间的Rough集理论在不完全信息系统中进行知识提取。
关键词:Rough集;相容近似空间;不完备信息系统
中图分类号:TP311文献标识码:A文章编号:1009-3044(2007)18-31652-01
The Application of a New Rough Set Approach to Non-complete Information System
WANG Li-Ju,YANG Guo-ming
(Department of Information,Liaoning University of Finance work,ShenYang 110122,China)
Abstract:In this paper a compatibility approximation space has been presented and also use it to extract knowledge from Non-complete Information System.
Key words:Rough Set;compatibility approximation space;Non-complete Information System
1 引言
粗糙集合理论中近似空间的概念给出了一种理解与处理知识的模型[8],它将知识定义为不可区分关系的族集,这就使得知识具有了清晰的数学意义。
但是,近似空间概念有一定的局限性,它无法产生具有一定不确定性控制程度或误分类率的分类。而在实际应用中进行这样的分类可能会有利于更深刻理解和运用所分析的数据。因此Ziarkow(1993年)提出了可变精度粗糙集合模型[9],通过窄化概念的边界区域来产生具有不确定性或误分类率的近似分类。
此外,传统的近似空间中对象的分类是基于等价关系的,两个对象只要有一个属性值不同,就要将它们划分到不同的类别,这样的分类显得苛刻,过于注重对象间的差异,忽略了对象之间的相似性,不利于在大规模数据集合之上进行规则提取。特别是对不完备信息系统进行规则提取。为此本文提出了一种新的近似空间的概念,这种近似空间对象的分类是基于相容关系的,主要思想是基于论域上对象的相容关系对对象进行划分,形成论域上的一个覆盖,完成对不完全信息系统的知识提取。
2 不完备信息系统和基于相容关系的近似空间
2.1不完备信息系统
传统的Rough集理论中,存在一个明显的假设,即所有可以获得的个体对象由这个属性集合给出完全描述。换句话说,用U={a1,a2,...an}表示个体对象的集合, C={C1,C2,...Cn}表示属性集合,则对于任意aj∈U,ci∈C属性值ci(ai)总是存在的???即ci(ai)≠?椎。这个假设是合理的,但在现实情况中,由于存储介质的故障,一些人为因素等,可能得不到一部分属性值,或者有些对象的某个属性值是不可能得到的,这导致关于对象的集合U的描述是不完全的。这样导致不完全信息系统的出现。
2.2相容近似空间
定义1(相容关系): 给定信息表对于具有遗漏属性值的属性子集B?哿C记遗漏值为“*”,定义
T={(x,y)|x∈U∧y∈U∧?坌Ci(Ci∈B?圯(Ci(x)=Ci(y)∨Ci(x)=*∨Ci(y)=))}为相容关系。
定义2(相容近似空间): 设U是一个有限非空的对象集合,称为域,C是有限非空属性集合,设Cs为U在属性集B?哿C上基于相容关系的覆盖。有序对A=(U,Cs)称为相容近似空间。
定义3 (x的最小描述):集合组Md(X)={X∈Cs|x∈X∧Y∈Cs(x∈Y∧Y?哿X?圯X=Y)}。
定义4(上下内涵(外延)、边界):设 A=(U,Cs)是一个相容近似空间,设X?哿U
(1)集合组Cin(X)={z∈Cs: z∈X 。称为X的下内涵。
(2)集合Cex(X)=UCin(x)称为X的下外延。
(3)集合组Bd(X)=U{Md(X)}:x∈X\Cex(X)称为X的边界。
(4)集合Cin=Cin(X)U Bd(x)称为X的上内涵。
(5)集合Cex(x)=UCin称为X的上外延。
定义5(上、下近似):不完备信息表S=中对象集合X关于属性集合B?哿C的上近似XB 和下近似XB分别为:
XB=Cex(X), XB=Cex(X)。
定义6(可能世界):给定信息表对于每个属性Ci所有取的值为属性Ci的可能世界。
3 基于相容近似空间的不完备信息系统知识发现的
显示全部