基于相似关系的变精度粗糙集的数据约简.doc
文本预览下载声明
基于相似关系的变精度粗糙集的数据约简
第25卷
第4期
哈尔滨师范大学自然科学Vo1.25,No.42Oo9
NATURALSCIENCESJ0URNAL0FHARBINN0RMALUNIVERSITY
基于相似关系的变精度粗糙集的数据约简
柴造坡
(黑龙江生态工程职业学院)
【摘要】基于最大相似类的变精度粗糙集模型.此模型把变精度粗糙集的基础
由等价关系拓展到条件更弱的相似关系,更好地利用数据间的相关信息,扩大了粗糙
集理论的应用范围.讨论了相似变精度粗糙集的性质与属性约简,举例说明了相似的●
变精度粗糙集在大学生体质检测数据约简中的应用.
关键词:相似关系;Pawlak粗糙集;相似变精度粗糙集;属性约简
0引言
1982年波兰数学家Pawlak提出的粗糙集理
论…川是一种刻画不完整性和不确定性的数学工
具.它以对观察和测量数据进行分类为基础,通过
对数据进行分析,近似分类,推理数据问的关系,
从中发现隐含的知识,揭示其潜在的规律,从而在
模式识别,机器学习,数据挖掘等领域得到广泛的
应用.
粗糙集理论的中心问题是分类分析问题.
Pawlak粗糙集的一个局限性是它按照等价关系
分类,使得它的应用受到一定程度的限制;Pawlak
粗糙集的另一个局限是在构造其上,下近似集时,
等价类之间只有包含或不包含关系.本文从
这两方面扩展了经典粗糙集理论,把粗糙集的基
础由等价关系扩展到相似关系,同时引人基于相
似关系的变精度粗糙集的概念,探讨了它的性质
及在数据属性约简中的应用.
1Pawlak粗糙集模型
1.1知识与知识库
设≠【2j是我们感兴趣的研究对象组成的
有限集合,称为论域,称任意子集为中的
一
个概念或范晾为规范化起见,我们认为空集也
收稿日期:2oo9—07—08
是一个概念.中的任何概念族称为的抽象知
识,简称知识.一个知识库就是一个关系系统(或
信息系统)=(,A),其中A是属性集.A的每个
子集都可确定上一个等价关系尺,也称=(,
R)是一个知识库.
1.2PnZ0粗糙集
给定知识库=(,R),对于每个子集
,定义两个集合:
R=u{y∈尺Il,},
=u{yEIl,n≠},
分别称之为的R下近似集和R上近似集,其中
表示由.R所确定的等价类的集合.当能表
达成某些等价类的并时,称是R精确的,否则称
为不精确的或粗糙的.
2相似变精度粗糙集
2.1相似关系与最大相似类
设×为上一个二元关系,若R满
足自反性和对称性,则称R为上的相似关系.设
R为上一个相似关系,,若中任意两个
元素,,,都有尺,,,则称为R的一个相似类;若
此相似类不真包含在其它相似类中,则称为最
大相似类,记为lt;gt;.R的所有最大相似类构成
一
个集合,记为c().
第4期基于相似关系的变精度粗糙集的数据约简l9
注:一个元素可能包含在多个最大相似类中.
尽管如此,集合上的相似关系月与c()是一
一
对应的.
2.2精度包含.
设和y为的非空子集,令
c(,】,):f一ny/I,llgt;0,
【.
O,II=0,
其中II表示集合的基数.称c(,l,)为集合
关于l,的错误分辨率.令0≤≤0.5,多数包含
定义为l,c(,y),多数隐含着与l,
的公共元素的数目大于中元素数目的5O%.
2.3相似变精度粗糙集模型
设为上的相似关系,C()为的所有
最大相似类构成的集合,称(,R)为相似空间.
对于,定义的JB下近似与上近似分别为
=u{EEc(u)Ic(E,)≤},
口=u{E∈CR()Ic(E,)≤1一},
称(,,)为相似变精度粗糙集模型.
当R为等价关系时,相似变精度粗糙集模型
退化为基本变精度粗糙集模型;当为等价关
系,=O时,相似变精度粗糙集模型退化为
Pawlak粗糙集模型.
2.4上(下)近似集的性质
当0≤lt;0.5时,相似变精度粗糙集满足下
列性质:
(1)=口=(2j,==;
(2);
(3)(uy)ul,,
(u】,)nul,;
(4)y,y;
(5)(ny)ny;
(nl,)n
证明(1)对任意E∈c(),有c(E,)
=l,c(,£,)=0,因此,
f2j==;==
(2)任取∈,存在∈(),满足
∈E,c(,)≤.由于0≤≤O.5,所以,
c(E,)≤l一,即有∈E.所以?
RBX.
(3)任取∈uy,不妨设z∈,则
存在EEC(u)使得∈E,c(E,)≤,即1一
≤而一≤一
≤,故c(,uy)≤,即∈E
(y)?所以uuy?I司理
可证(uy)u
(4)设】,,任取∈,存在E∈
(),使得∈,c(,)≤1一
由于y,故l一≤1一
≤所以c()≤因此∈E
l,,这样同理可证
(5)任取E(ny),存在E∈c()
使得∈E,c(E,n】厂)≤,即l一
而?一≤一
≤.同理可得l一≤
1{)一堕≤届所以c()≤卢,
显示全部