文档详情

第四章分类方法讲课.ppt

发布:2017-05-09约2.76万字共107页下载文档
文本预览下载声明
Data Mining: Concepts and Techniques 第四章 分类方法 内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 与分类有关的问题 分类是数据挖掘中重要的任务 分类的目的是学会一个分类器(分类函数或模型),该分类器能把待分类的数据映射到给定的类别中。 分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测。 分类和统计学中的回归是既相互联系,有有一定区别的概念。分类输出的是离散的类别值,而回归输出的是连续数值。 分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。 分类是数据挖掘中重要的任务 分类器的构造依据的方法很广泛: 统计方法:包括贝叶斯法和非参数法等。 机器学习方法:包括决策树法和规则归纳法。 神经网络方法。 其他,如粗糙集等(在前面绪论中也介绍了相关的情况)。 分类方法的类型 从使用的主要技术可以把分类方法归结为四种类型: 基于距离的分类方法 决策树分类方法 贝叶斯分类方法 规则归纳方法。 本章将择选一些有代表性的方法和算法来介绍这四类分类方法。 分类问题的描述 定义4-1 给定一个数据库 D={t1,t2,…,tn}和一组类C={C1,…,Cm},分类问题是去确定一个映射 f: D?C,使得每个元组ti被分配到一个类中。一个类Cj 包含映射到该类中的所有元组,即Cj={ti|f(ti)=Cj,1≤i≤n,而且ti?D}。 解决分类问题的关键是构造一个合适的分类器:从数据库到一组类别集的映射。一般地,这些类是被预先定义的、非交叠的。 构造分类器,需要有一个训练样本数据集作为输入。分类的目的是分析输入数据,通过训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型。 数据分类(Data Classification)分为两个步骤:建模和使用。 分类问题的描述 数据分类的两个步骤 1.建立一个模型,描述预定的数据类集或概念集 数据元组也称作样本、实例或对象。 为建立模型而被分析的数据元组形成训练数据集。 训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。 通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。 数据分类的两个步骤 2.使用模型进行分类 首先评估模型(分类法)的预测准确率。 如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。 数据分类的两个步骤 数据分类的两个步骤 基于距离的分类算法的思路 定义4-2 给定一个数据库D={t1,t2,…,tn}和一组类C={C1,…,Cm}。假定每个元组包括一些数值型的属性值:ti={ti1,ti2,…,tik},每个类也包含数值性属性值:Cj={Cj1,Cj2,…,Cjk},则分类问题是要分配每个ti到满足如下条件的类Cj: sim(ti,Cj)≥sim(ti,Cp) ,?Cp∈C,Cp≠Cj, 其中sim(ti,Cj)被称为相似性。 在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。 为了计算相似性,应首先得到表示每个类的向量。最常用的是通过计算每个类的中心来完成。 基于距离的分类算法的一般性描述 算法 4-1通过对每个元组和各个类的中心来比较,从而可以找出他的最近的类中心,得到确定的类别标记。 基于距离的分类方法的直观解释 K-近邻分类算法 K-近邻分类算法(K Nearest Neighbors,简称KNN)通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。 K-近邻分类算法 KNN的例子 KNN的例子 KNN的例子 决策树表示与例子 决策树(Decision Tree)的每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。 buys_computer的决策树示意 决策树表示与例子 决策树分类的特点 决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分枝,在决策树的叶结点得到结论。从决策树的根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。 基于决策树的分类算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识(同时也是它的最大的缺点),只要训练例子能够用属性-结论式表示出来,就能使用该算法来学习。 决策树分类算法步骤:(1)决策树修剪 决策树生成算法的输人是一组带有
显示全部
相似文档