数据挖掘十大算法详解.pdf
文本预览下载声明
目 录
C4.5
k-means
SVM
支持向量机
拉格朗日对偶
最优间隔分类器
核函数
SMO算法详解
Apriori
EM
PageRank
AdaBoost
kNN
Naive Bayes
CART
本文档使用 看云 构建 - 2 -
C4.5
C4.5
数据挖掘学习笔记--决策树C4.5
来源 :http///u011067360/article/details
在网上和教材上也看了有很多数据挖掘方面的很多知识 ,自己也学习很多 ,就准备把自己学习和别人分享
的结合去总结下 ,以备以后自己回头看 ,看别人总还是比不上自己写点 ,及时有些不懂或者是没有必要。
定义 :分类树 (决策树 )是一种十分常用的分类方法。他是一种监管学习 ,所谓监管学习说白了很简单 ,
就是给定一堆样本 ,每个样本都有一组属性和一个类别 ,这些类别是事先确定的 ,那么通过学习得到一个
分类器 ,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。分类本
质上就是一个map的过程。C4.5分类树就是决策树算法中最流行的一种。
算法简介 :
1. Function C4.5(R:包含连续属性的无类别属性集合,C:类别属性 ,S :训练集 )
2. /*返回一棵决策树*/
3. Begin
4. If S为空,返回一个值为Failure的单个节点;
5. If S是由相同类别属性值的记录组成,
6. 返回一个带有该值的单个节点;
7. If R为空,则返回一个单节点,其值为在S的记录中找出的频率最高的类别属性值 ;
8. [注意未出现错误则意味着是不适合分类的记录] ;
9. For 所有的属性R(Ri) Do
10. If 属性Ri为连续属性 ,则
11. Begin
12. 将Ri的最小值赋给A1 :
13. 将Rm的最大值赋给Am ;/*m值手工设置*/
14. For j From 2 To m-1 Do Aj A1+j*(A1Am)/m;
15. 将Ri点的基于{ Aj,Aj}的最大信息增益属性 (Ri,S)赋给A ;
16. End ;
17. 将R中属性之间具有最大信息增益的属性 (D,S)赋给D;
18. 将属性D的值赋给{dj/j 1,2...m} ;
19. 将分别由对应于D的值为dj的记录组成的S的子集赋给{sj/j 1,2...m};
20. 返回一棵树,其根标记为D;树枝标记为d1,d2...dm;
21. 再分别构造以下树 :
22. C4.5(R-{D},C,S1),C4.5(R-{D},C,S2)...C4.5(R-{D},C,Sm);
23. End C4.5
Function C4.5(R:包含连续属性的无类别属性集合,C:类别属性 ,S :训练集 )
/*返回一棵决策树*/
Begin
If S为空,返回一个值为Failure的单个节点;
If S是由相同类别属性值的记录组成,
返回一个带有该值的单个节点;
If R为空,则返回一个单节点,其值为在S的记录中找出的频率最高的类别属性值 ;
[注意未出现错误则意味着是不适合分类的记录] ;
For 所有的属性R(Ri) Do
If 属性Ri为连续属性 ,则
本文档使用 看云 构建
显示全部