文档详情

决策树--很详细算法介绍.ppt

发布：2018-12-16约3.88千字共45页下载文档

文本预览下载声明

* * * * * * * * * * 计算各属性的信息增益 * * 第四步：决策树 * * 案例2：银行违约率 * * * * 案例3 对电信客户的流失率分析 * * 数据仓库条件属性类别属性客户是否流失案例4：在银行中的应用 * * 案例5：个人信用评级 * * 个人信用评级决策树（五）其他算法 * C4.5与C5.0算法 Gini Index算法 CART算法 PRISM算法 CHAID算法 * 1、C4.5与C5.0算法 * C5.0算法则是C4.5算法的修订版，适用在处理大数据集，采用Boosting（提升）方式提高模型准确率，又称为Boosting Trees，在软件上的计算速度比较快，占用的内存资源较少。 * 类别属性的信息熵 2、Gini Index算法 * ID3 and PRISM适用于类别属性的分类方法。 Gini Index能数值型属性的变量来做分类。着重解决当训练集数据量巨大，无法全部放人内存时，如何高速准确地生成更快的，更小的决策树。 * 集合T包含N个类别的记录，那么其Gini指标就是如果集合T分成两部分N1 和 N2。则此分割的Gini就是提供最小Gini split就被选择作为分割的标准(对于每个属性都要经过所有可以的分割方法)。 Gini Index算法 * * 案例：在汽车销售中的应用 * * * * * * N N Y Y Y N Y Y Y N N N 3、CART算法 * 由Friedman等人提出，1980年以来就开始发展，是基于树结构产生分类和回归模型的过程，是一种产生二元树的技术。 CART与C4.5/C5.0算法的最大的区别是：其在每一个节点上都是采用二分法，也就是一次只能够有两个子节点，C4.5/5.0则在每一个节点上可以产生不同数量的分枝。 * * * 构建树的步骤： * * * * * * * * * * * * * * * * * * * 决策树(Decision Tree) * * 1、分类的意义数据库了解类别属性与特征预测分类模型— 决策树分类模型— 聚类一、分类(Classification) * * 数据库分类标记性别年龄婚姻否是否是 Female Male 35 ≧35 未婚已婚 * 2、分类的技术（1）决策树 * （2）聚类 * 3、分类的程序 * 模型建立(Model Building) 模型评估(Model Evaluation) 使用模型(Use Model) * 决策树分类的步骤 * 数据库 * 训练样本(training samples) 建立模型测试样本(testing samples) 评估模型例： * 资料训练样本婚姻年龄家庭所得否是否是未婚已婚 35 ≧35 低高否小康 1.建立模型测试样本 2.模型评估错误率为66.67% 修改模型 3.使用模型 * 4、分类算法的评估 * 预测的准确度：指模型正确地预测新的或先前未见过的数据的类标号的能力。训练测试法(training-and-testing) 交叉验证法(cross-validation) 例如，十折交叉验证。即是将数据集分成十分，轮流将其中9份做训练1份做测试，10次的结果的均值作为对算法精度的估计，一般还需要进行多次10倍交叉验证求均值，例如10次10倍交叉验证，更精确一点。 * * * 速度：指产生和使用模型的计算花费。建模的速度、预测的速度强壮性：指给定噪声数据或具有缺失值的数据，模型正确预测的能力。可诠释性：指模型的解释能力。 * * 决策树归纳的基本算法是贪心算法，它以自顶向下递归各个击破的方式构造决策树。贪心算法：在每一步选择中都采取在当前状态下最好/优的选择。在其生成过程中，分割方法即属性选择度量是关键。通过属性选择度量，选择出最好的将样本分类的属性。根据分割方法的不同，决策树可以分为两类：基于信息论的方法（较有代表性的是ID3、C4.5算法等）和最小GINI指标方法（常用的有CART、SLIQ及SPRINT算法等）。二、决策树(Decision Tree) （一）决策树的结构 * 根部节点(root node) 中间节点(non-leaf node) (代表测试的条件) 分支(branches) (代表测试的结果) 叶节点(leaf node) (代表分类后所获得的分类标记) * * * （二）决策树的形成例： * 根部节点中间节点停止分支？ * （三）ID3算法(C4.5,C5.0) * * Quinlan(1979)提出，以Shannon(1949)的信息论为依据。 ID3算法的属性选择度量就是使用信息增益，选择最高信息增益的属

显示全部

相似文档