文档详情

数据挖掘十大算法详解.pdf

发布:2019-03-25约8.78万字共100页下载文档
文本预览下载声明
目 录 C4.5 k-means SVM 支持向量机 拉格朗日对偶 最优间隔分类器 核函数 SMO算法详解 Apriori EM PageRank AdaBoost kNN Naive Bayes CART 本文档使用 看云 构建 - 2 - C4.5 C4.5 数据挖掘学习笔记--决策树C4.5 来源 :http///u011067360/article/details 在网上和教材上也看了有很多数据挖掘方面的很多知识 ,自己也学习很多 ,就准备把自己学习和别人分享 的结合去总结下 ,以备以后自己回头看 ,看别人总还是比不上自己写点 ,及时有些不懂或者是没有必要。 定义 :分类树 (决策树 )是一种十分常用的分类方法。他是一种监管学习 ,所谓监管学习说白了很简单 , 就是给定一堆样本 ,每个样本都有一组属性和一个类别 ,这些类别是事先确定的 ,那么通过学习得到一个 分类器 ,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。分类本 质上就是一个map的过程。C4.5分类树就是决策树算法中最流行的一种。 算法简介 : 1. Function C4.5(R:包含连续属性的无类别属性集合,C:类别属性 ,S :训练集 ) 2. /*返回一棵决策树*/ 3. Begin 4. If S为空,返回一个值为Failure的单个节点; 5. If S是由相同类别属性值的记录组成, 6. 返回一个带有该值的单个节点; 7. If R为空,则返回一个单节点,其值为在S的记录中找出的频率最高的类别属性值 ; 8. [注意未出现错误则意味着是不适合分类的记录] ; 9. For 所有的属性R(Ri) Do 10. If 属性Ri为连续属性 ,则 11. Begin 12. 将Ri的最小值赋给A1 : 13. 将Rm的最大值赋给Am ;/*m值手工设置*/ 14. For j From 2 To m-1 Do Aj A1+j*(A1Am)/m; 15. 将Ri点的基于{ Aj,Aj}的最大信息增益属性 (Ri,S)赋给A ; 16. End ; 17. 将R中属性之间具有最大信息增益的属性 (D,S)赋给D; 18. 将属性D的值赋给{dj/j 1,2...m} ; 19. 将分别由对应于D的值为dj的记录组成的S的子集赋给{sj/j 1,2...m}; 20. 返回一棵树,其根标记为D;树枝标记为d1,d2...dm; 21. 再分别构造以下树 : 22. C4.5(R-{D},C,S1),C4.5(R-{D},C,S2)...C4.5(R-{D},C,Sm); 23. End C4.5 Function C4.5(R:包含连续属性的无类别属性集合,C:类别属性 ,S :训练集 ) /*返回一棵决策树*/ Begin If S为空,返回一个值为Failure的单个节点; If S是由相同类别属性值的记录组成, 返回一个带有该值的单个节点; If R为空,则返回一个单节点,其值为在S的记录中找出的频率最高的类别属性值 ; [注意未出现错误则意味着是不适合分类的记录] ; For 所有的属性R(Ri) Do If 属性Ri为连续属性 ,则 本文档使用 看云 构建
显示全部
相似文档