基于粗糙集理论的连续值属性离散化方法研究的中期报告.docx
文本预览下载声明
基于粗糙集理论的连续值属性离散化方法研究的中期报告
一、研究背景
毫无疑问,随着信息时代的到来,数据挖掘技术的应用已经越来越广泛。离散化是数据挖掘领域中的一个重要问题。它是将连续性属性转化为离散化数值的方法,方便对数据的处理和分析。离散化技术广泛应用于决策树、关联规则、聚类分析等数据挖掘算法中。
而在离散化技术的实现上,粗糙集理论是一个行之有效的方法。其中,基于不确定性度量的粗糙集离散化算法可以在处理离散化问题时充分挖掘数据中包含的信息,提高了数据处理的精度和效率。
二、研究问题及目的
粗糙集理论基于不确定性度量的离散化方法在离散化处理领域中已被广泛应用。本论文旨在研究基于粗糙集理论的连续值属性离散化方法,具体研究问题包括:
1.探究粗糙集离散化算法的基本原理和理论基础;
2.研究连续值属性离散化过程中相邻元素的关系和处理方法;
3.探究不确定性度量对粗糙集离散化算法的影响,提高离散化精度;
4.通过实验模拟等方式,验证离散化算法的可行性和有效性。
三、研究内容及进度
1. 粗糙集离散化算法基本原理和理论基础的研究(已完成)。
2. 连续值属性离散化过程中相邻元素的关系和处理方法的研究(进行中)。
3. 粗糙集离散化算法不确定性度量的探讨和优化(待进行)。
4. 实验模拟验证算法有效性(待进行)。
四、研究方法
1.文献综述:通过查阅相关文献,深入了解粗糙集理论及离散化算法的相关知识;
2. 理论分析:对离散化算法进行理论分析,探究粗糙集理论在离散化过程中的应用;
3. 实验验证:通过实验和模拟等方式,验证离散化算法的实效性和有效性。
五、预期成果
1.建立基于粗糙集理论的离散化算法理论模型;
2.实现基于粗糙集理论的连续值属性离散化方法;
3.通过实验模拟等方式,验证离散化算法的有效性和可行性;
4.提出优化方法并进一步提高离散化结果的精度和效率。
六、参考文献
1. Pawlak Z. Rough sets[J]. International Journal of Computer and Information Sciences, 1982, 11(5): 341-356.
2. Pawlak Z. Rough set approach to knowledge-based decision support[J]. European Journal of Operational Research, 1993, 3(6):449-467.
3. Quinlan J R. Induction of decision trees[J]. Machine Learning, 1986, 1(1): 81-106.
4. 刘金莲, 陈毓贞. 基于粗糙集理论的离散化方法综述[J]. 计算机工程与应用, 2014(6): 23-26.
5. 陈毓贞, 刘金莲. 带有相邻元素依赖的连续属性离散化算法[J]. 计算机应用, 2012(9):2342-2345.
显示全部