基于决策树的分类方法分析-计算机应用技术专业论文.docx
文本预览下载声明
南京师范太学2003年砸{:研究生毕业论文
南京师范太学2003年砸{:研究生毕业论文 璀于决镱树的分类方法研究
摘要
厂
{数掘挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取
具有潜在应用价值的知识或模式。模式按其作用可分为两类:描述型模式和预测 型模式。分类模式是一种重要的预测型模式。挖掘分娄模式的方法有多种,如决 策树方法、贝叶斯网络、遗传算法、基于关联的分类方法、羊H糙集和k一最临近方
、 /
法等等。,/驴
I
本文研究如何用决策树方法进行分类模式挖掘。文中详细阐述了几种极具代 表性的决策树算法:包括使用信息熵原理分割样本集的ID3算法;可以处理连续 属性和属性值空缺样本的C4.5算法;依据GINI系数寻找最佳分割并生成二叉决 策树的CART算法;将树剪枝融入到建树过程中的PUBLIC算法:在决策树生 成过程中加入人工智能和人为干预的基于人机交互的决策树生成方法;以及突破 主存容量限制,具有良好的伸缩性和并行性的SI,lQ和SPRINT算法。对这些算 法的特点作了详细的分析和比较,指出了它们各自的优势和不足。文中对分布式 环境下的决策树分类方法进行了描述,提出了分布式ID3算法。该算法在传统的 ID3算法的基础上引进了新的数掘结构:属性按类别分稚表,使得算法具有可伸 缩性和并行性。最后着重介绍了作者独立完成的一个决策树分类器。它使用的核 心算法为可伸缩的ID3算法,分类器使用Microsoft Visual c++6.0开发。实验结 果表明作者开发的分类器可以有效地生成决策树,建树时间随样本集个数呈线性
增长,具有可伸缩性。 。
,,荡囊
关键字: 数据挖掘1分类规则,决策树,分布式数据挖掘
南京师范大学2003年硕士研究生毕业论文
南京师范大学2003年硕士研究生毕业论文 娃于决策树的分类方法研究
Abstract
Data mining,referred to as knowledge discovery in databases,is the extraction of paRems representing valuable knowledge implicitly stored in large databases or data warehouses.Classification is a form of data analysis that Call be used to extract
models describing important data classes.There are many techniques for data classification such as decision tree induction,Bayesian classification and Bayesian
belief networks,association·based classification,genetic algorithms,rough sets,and k—nearest neiighbor classifiers.
This paper introduces the decision tree method for classification.Firstl ysome basic algorithms for inducing decision tree are discussed,including ID3,which uses information gain to select a splitting attribute when partitioning a training set;C4.5, which Can deal with numeric attributes;CART,which Bses G]NI rule in attribute selection and induces a binary tree;PUBLIC,which puts tree pruning in the tree
building phase;Interactive method,which puts Artificial Intelligence and human·computer interaction into the procedure of decision tree induction;as well as SLIQ
显示全部