一种决策树分类模型的设计与实现.ppt
一种决策树分类模型的
设计与实现计算机与通信学院设计人:吴坤班级:通信四班指导老师:钟清流课题背景数据挖掘技术的主要算法有:统计分析方法,神经元网络,决策树方法,遗传算法等。其中决策树分类作为数据挖掘工具和方法之一是运用树结构图的方式把数据特征直观地表述出来,可用于对数据的分类和预测,其核心是如何构造精度高,规模小的决策树。主要目的:利用matlab开发平台和统计工具箱设计并实现决策树的分类模型实验系统。1决策树分类有其特有的分类过程,本实验系统的是通过算法的实现使分类的过程,剪枝的过程以及分类的结果可视化。借助Matlab软件用比较直观、鲜明的形式——图形、图像来展现决策树分类过程和结果。具体通过比较决策树分类与一般的二次分类和线性分类,展现决策树分类的优势。2课题研究目的修剪决策树:去掉一些可能是噪音或者异常的数据。递归的进行数据分片建立决策树:利用训练样本生成决策树模型。开始,数据都在根节点使用决策树对未知数据进行分类:按照决策树上采用的分割属性逐层往下,直到一个叶子节点。决策树分类步骤决策树分类步骤:决策树表示法:决策树分类算法训练集决策树inputoutput天气状况风级湿度多云下雨晴天高强正常弱YesYesNoYesNo决策树的剪枝剪枝目的其实质是消除训练集中的异常和噪声。两种剪枝标准最小描述长度原则(MDL)做法:对决策树进行二进位编码,编码所需二进位最少的树即为“最佳剪枝树”期望错误率最小原则做法:对树中的内部节点计算其剪枝/不剪枝可能出现的期望错误率,比较后加以取舍设计和实现一个图形界面的决策树分类模型。01显示决策树分类、决策树剪枝过程,使实验内容、实验过程、实验结果可视化。02运用决策树分类得到的分类结果和一般分类相比较,展现决策树分类优势。03能对不同数据集进行处理。04系统功能需求系统模块架构图形、图像:表示数据分布-散点图;表示决策树代价-曲线图;表示分类区域-栅格图;表示决策树表示-树结构图;系统实现系统主界面该界面主要是设置路径和进入实验。设置路径是为了能找到运行模型所需的所有程序。线性分类界面界面‘散点图’‘线性分类’‘区域划分’‘命令解释窗口’界面决策树分类界面0102030405决策树分类决策树构图决策树代价测试选择最佳决策树决策树剪枝。散点显示数据分布线性分类显示区域划分显示分类结果我们通过计算得到ans=0.32,也就是说被错误分类的数据有32%之多,也就说用线性分类所得到的效果并不好。决策树分类显示决策树构图决策树代价测试