华南理工大学数据挖掘第六章.docx
文本预览下载声明
第六章分类与预测什么是分类? 什么是预测?分类:预测类属标号基于训练集和分类属性的值(class labels)划分数据(建立一个模型)并用来分类新的数据。步骤:模型建立: 描述预先定义的数据类每个元组假定有一个预先定义的类,由class label attribute决定构成训练数据集的个体元组成为训练集( training set)模型可以表示成分类规则、决策树,或数学公式模型使用: 分类将来或未知的对象精度评价每个测试元组的类标号与该元组的学习分类器的类标号进行比较准确率是分类器正确分类的测试元组所占的百分比测试集不同于训练集, 否则会发生过拟合如果精度是可接受的,就可以用它对类标号未知的未来数据元组进行分类预测:建立连续值函数模型,如预测未知或缺失的值。监督学习(分类)有指导:类标号伴随着训练数据,只是训练数据所属的类新数据在训练集的基础上进行分类无监督学习(聚类)训练数据的类标号未知给定一个测量或观测集,目的在于建立数据的类或簇关于分类和预测的问题数据准备:数据清洗:预处理数据是为了减少噪声和处理空缺值相关分析:删除不相关和冗余属性数据变换:概化和/或规格化数据评估分类方法:准确率分类准确率: 预测分类标号预测准确率: 猜测被预测属性的值速度建立模型的时间(training time)使用模型的时间(classification/prediction time)鲁棒性: 处理噪声和空缺值的能力可伸缩性: 磁盘常驻数据库的效率可解释性:被模型证实的理解力和洞察力规则的优越性判定树的大小分类规则的简洁性用决策树归纳分类判定树一个类似于流程图的树结构内部节点表示一个属性上的测试(用矩形表示)每个分支代表一个测试的输出叶结点代表类或类分布(用椭圆表示)判定树的生成包括两个过程树的建构首先所有的训练样本都在根结点基于所选的属性循环的划分样本树剪枝识别和删除那些反应噪声或孤立点的分支判定树的使用:为一个未知的样本分类在判定树上测试样本的属性值基本算法(贪心算法)以自顶向下递归的各个击破方式构造判定树首先,所有的训练样本都在根结点所有属性都是分类的(如果值是连续的,它们应预先被离散化)基于所选属性递归的划分样本在启发式或统计度量的基础上选择测试属性(例如,信息增益)停止划分的条件给定节点的所有样本属于同一个类没有剩余属性可以用来进一步划分样本-使用多数表决来分类叶节点没有剩余的样本属性选择度量:信息增益、增益率、Gini指标信息增益:增益率:Gini指标:比较属性选择度量信息增益: 偏向于多值属性增益率: 偏向于不平衡的分裂,其中一个划分比其他划分小得多Gini index: 偏向于多值属性当类的数量很大时会有困难倾向于导致相等大小的划分和纯度过度拟合:给定一个假设H,如果在假设空间上存在另一个假设H,使得在训练集上H的错误率比H小,而在测试集上H的错误率却比H要大,那么称假设H过度拟合训练数据过度拟合的主要原因(1)分类噪声或者属性噪声都可能导致过度拟合。(2)噪声会直接导致样本的冲突。(3)样本数据描述的属性不完备、不足以判别分类标准。避免过度拟合的两种方法前剪枝: 提前停止树的构造而对树剪枝。如果划分一个节点的元组导致低于预定义阈值的分裂,则给定子集的进一步划分将停止。选取一个适当的阈值是困难的(利用属性选择度量计算)后剪枝: 由“完全生长”的树剪去子树—得到一个渐近剪枝树的序列用不同于训练数据的数据来决定是否是“best pruned tree”数据挖掘中为什么需要决策树归纳?相对更快的学习速度(than other classification methods)可转换为简单并易于理解的分类规则用SQL 查询存取数据库与其他方法相当的分类精度贝叶斯分类(P203)为什么要进行贝叶斯分类?P(H | X ):后验概率,或条件X 下,H 的后验概率。例如,假定数据样本世界由水果组成,用它们的颜色和形状描述。假定X 表示红色和圆的,H 表示假定X 是苹果,则P(H | X )反映当我们看到X 是红色并是圆的时,我们对X 是苹果的确信程度。P(H):先验概率,或H 的先验概率。对于我们的例子,它是任意给定的数据样本为苹果的概率,而不管数据样本看上去如何。后验概率P(H | X )比先验概率P(H)基于更多的信息(如,背景知识)。P(H)是独立于X 的。独立假设:独立假设使得计算成为可能当独立假设满足时生成最优分类器但是实践中很少满足。因为属性(变量)通常时相关的试着克服这些限制:贝叶斯网络, 联合属性的贝叶斯推理和因果关系决策树, 在一个时刻只推理一个属性,首先考虑最重要的属性分类器的特点:优点:预测准确性高训练集中包含错误时鲁棒性好较快的得到学习的目标函数缺点:长时间的训练难以理解学习函数结合领域知识难用反向传播分类“如何设计神
显示全部