数据挖掘决策树详解.doc
文本预览下载声明
数据挖掘决策树的应用
摘 要:在学校管理工作中,特别是对学生的成绩管理工作中,普遍存在的问题是学生成绩数据量过于庞大,但对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段,并没有对大量的成绩数据进行深入地分析,加以捕捉有利于教学管理工作的信息,这是对教学信息资源极大的浪费。数据挖掘技术正是解决这个问题的可行而有效的方法。
关键词:数据挖掘,决策树,成绩
目 录
第一章 引言 1
1.1研究背景 1
1.1.1数据挖掘和决策树分类 1
1.2 weka平台的简述 2
第二章决策树在学生成绩中的应用 2
2.1数据的预处理 2
2.2数据的训练集处理 3
2.3数据的校验和成绩分析 5
第三章 总结 5
致 谢 6
参考文献 6
附 录 6
第一章 引言
1.1研究背景
学生成绩是评估教学质量的重要依据现有教学管理系统中般仅有成绩的输入输出及简单的查询很少涉及成绩分析不利于充分挖掘分析这些数据所隐含的信息导致无法进行有效的教学评价利用数据挖掘技术可以从定量的角度精确地展现学生成绩分析的多个方面通过把数据挖掘技术引入到学生成绩分析中可以找出影响成绩变化的规律性的因素帮助制定相应的措施引导学生积极性。
1.1.1数据挖掘和决策树分类
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。 数学分析 高等代数 近世代数 C语言 C++ 成微分方程 卢攀 71 93 83 78 86 86 李峰 78 95 81 84 87 93 廖语城 70 95 67 73 77 90 袁建涛 73 97 71 86 85 85 刘某 69 99 75 87 82 81 马晓天 75 96 78 77 77 88 郑子欲 73 88 76 71 73 86 张的选 72 96 78 77 79 89 张比称 67 96 68 75 77 86 毕晓波 73 98 79 83 90 85 盛威 71 100 74 72 77 82 苏豪 74 97 69 82 79 88
表2.1
然后对表进行预处理,预处理标准为:90-100分为A ;80-89分为B;70到79为C;60-69分为D;以及60分以下为E。量化处理后的数据部分截图如下:
姓名 数学分析 高等代数 近世代数 C语言 C++ 成微分方程 数学分析 卢攀 C A B C B B D 李峰 C A B B B A A 廖语城 C A D C C A D 袁建涛 C A C B B B B 刘某 D A C B B B B 马晓天 B A C C C B C 郑子欲 B B C C C B D 张的选 B A C C C B D 张比称 D A D C C B D 毕晓波 C A C B A B D 盛威 C A C C C B C 苏豪 C A D B C B C 金苗 C A D B C B B 李慧娟 C A D B C B B 李琳 C A C C B A A 李旋 D A C C C B D 李亚兰 C A D C B B C 李彦红 C A D B B B C 李泽俊 C A B C B B D 刘大伟 C A B C B A A 刘丹霞 C A B C C B B 刘蕊 D A C C B B B 马霞 C B D B C B C 孟侨 C A B B A B B 屈艺晖 D A C B A A B 任博洋 D C C C B B D 汝楠 C A C C B A B
表2.2
2.2数据的训练集处理
然后使用数据预处理后,开始归纳决策树,此过程使用数据预处理得到的训练集,根据前述的决策树算法进行分类处理:
图2.1
生成的的决策树如下图所示:
图2.2
实例树/叶节点
显示全部