数据挖掘技术及其在职业教育中应用探析.doc
文本预览下载声明
数据挖掘技术及其在职业教育中应用探析摘 要: 文章阐述了数据挖掘技术的概念、分类、功能以及主要过程,探讨分析了数据挖掘技术用于职业教育的可能性。
关键词: 数据挖掘; 职业教育; 教育信息化
中图分类号: G712 文献标识码: A 文章编号: 1009-8631(2011)04-0121-02
一、数据挖掘的概念
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、潜在有用的信息和知识的过程。数据挖掘是一个从数据中发现知识的过程。
通过数据挖掘可以帮助决策者寻找规律,发现被忽略的信息,预测趋势,进行决策。数据挖掘是对数据内在本质的高度抽象与概括,是对数据从感性认识到理性认识的升华。它涉及对数据库中的大量数据进行抽取、转换、分析以及模型化处理,从中提取辅助决策的关键性数据,因此数据挖掘就是深层次的数据信息分析方法。它是一个集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术于一体的交叉性学科研究领域。
二、数据挖掘的分类与主要功能
数据挖掘的分类方式很多,根据数据挖掘的任务可分为:分类或预测模型数据挖掘、数据总结、数据聚类分析、关联规则分析、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。根据数据挖掘的对象可分为:关系的、事务的、对象-关系的或数据仓库的挖掘系统。根据所处理数据的特定类型分类,有空间的、时间序列的、文本的、流数据的、多媒体的数据挖掘系统,或万维网挖掘系统。数据挖掘具有预测趋势和行为、关联分析、聚类、概念描述以及偏差检测等主要功能。
概念描述:就是对某类对象的内涵进行描述,并概括这类对象的有关特征。
特征性描述:用于描述某类对象的共同特征。
区别性描述:用于描述不同类对象之间的区别。
关联分析:数据关联是数据中存在的一类重要的可发现的知识,若两个或多个变量之间存在着某种规律性,就称为关联。关联分析的目的就是找出数据中隐藏的关联网。
分类和预测
分类:就是依照所分析对象的属性分门别类、加以定义、建立类组。关键是确定对数据按照什么标准或规则进行分类。
预测:利用历史数据建立模型,再运用最新数据作为输入值,获得未来变化的趋势或评估给定样本可能具有的属性值或值的范围。
聚类分析:又称无指导学习,其目的在于客观地按被处理对象的特征分类,将有相同特征的对象归为一类。
聚类不同于分类,分类规则需要预先定义类别和训练样本,而聚类分析直接面向原数据,没有预先定义好的类别和训练样本,所有记录都根据彼此相似程度来加以归类。
趋势分析:又称时间序列分析,它是从相当长的时间的发展中发现规律和趋势。趋势分析和关联分析相似,都是为了挖掘出数据之间的联系,但趋势分析的侧重点在于分析数据间的前因后果关系。
孤立点分析:孤立点是指数据库中包含的一些与数据的一般行为或模型不一致的数据。大部分的数据挖掘方法将孤立点视为噪声或异常丢弃,而对于某些应用,如欺骗检测,孤立点数据可能更有价值。
偏差分析:又称比较分析,它是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。偏差检测的基本方法是:寻找观测结果与参照值之间有意义的差别。
总之,数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为决策者进行决策的依据。
三、数据挖掘的基本过程
数据挖掘的基本过程包括:数据收集、数据整理、数据挖掘、结果评估、分析决策等,其基本过程与步骤如图1所示。从图不难看出,数据挖掘的各个过程不是一次就能完成的,其中某些步骤或者全过程可能需要多次的循环反复,才有可能达到预期的效果。
四、数据挖掘技术的应用
1.教学管理方面
职校学生的知识结构和学习风格是学生的基本特征。知识结构说明了学生对正在或将要学习知识的掌握情况,主要包括学生初始技能、当前技能和目标技能。学习风格包括学生的生理特征、心理特征和社会特征三个方面。利用数据挖掘功能分析学生特征,掌握学习者的状态,目的在于帮助学习者修正自己的学习行为。通过对学生特征分析结果和事先制定的行为目标标准进行比较,教师能够帮助学习者修正学习行为,提高学习能力,完善人格,因材施教,有利于学生各方面素质全面发展。随着计算机在教学管理方面的广泛应用,学生和教师的学习、工作、奖励、处罚等信息被存储在教学管理数据库中。例如,学生入学后,学籍管理数据库中存放有大量的学生档案,内容包括家庭情况、身体状况、入校前后的学习成绩、特长爱好、奖惩等信息。利用数据挖掘的关联分析和演变分析等功能,在学籍管理数据库中挖掘有价值的数据,分析学生的日常行为,可得知各种行为活动之间的
显示全部