文档详情

分类决策树ID3算法.pptx

发布:2017-04-17约小于1千字共51页下载文档
文本预览下载声明
决策树;主要内容;;;;;;;;主要内容;;;;;;;;;信息增益 用来衡量给定的属性区分训练样例的能力,中间(间接)表示属性 ID3算法在生成 树的每一步使用信息增益从候选属性中选择属性 用熵度量样例的均一性 ;信息增益 用熵度量样例的均一性 熵刻画了任意样例集合 S 的纯度 给定包含关于某个目标概念的正反样例的样例集S,那么 S 相对这个布尔型分类(函数)的熵为 信息论中对熵的一种解释:熵确定了要编码集合S中任意成员的分类所需要的最少二进制位数;熵值越大,需要的位数越多。 更一般地,如果目标属性具有c个不同的值,那么 S 相对于c个状态的分类的熵定义为 ;用信息增益度量熵的降低程度 属性A 的信息增益,使用属性A分割样例集合S 而导致的熵的降低程度 Gain (S, A)是 在知道属性A的值后可以节省的二进制位数 例子,注意是对当前样例集合计算上式;理解信息熵;理解信息增益;;;;;;;;;;;;;;;;;;;;;;;;;;;;
显示全部
相似文档