文档详情

决策树ID3分类算法.doc

发布：2017-03-22约1.64万字共21页下载文档

文本预览下载声明

决策树ID3分类算法一、决策树学习是一种逼近离散值目标函数的方法，在这种方法中学习到的函数被表示为一颗决策树。ID3算法的思想就是自顶向下构造决策树，它使用统计测试来确定每一个实例属性单独分类训练样例的能力，继而判断哪个属性是最佳的分类属性，直到建立一棵完整的决策树。利用这棵决策树，我们可以对新的测试数据进行分类。算法实现了对于给定的数据信息, 基于信息增益构造决策树，最后给出决策树和对训练数据集的分类准确率。实例序号颜色体形毛型类别 1 黑大卷毛危险 2 棕大光滑危险 3 棕中卷毛不危险 4 黑小卷毛不危险 5 棕中光滑危险 6 黑大光滑危险 7 棕小卷毛危险 8 棕小光滑不危险 9 棕大卷毛危险 10 黑中卷毛不危险 11 黑中光滑不危险 12 黑小光滑不危险程序代码及其部分注释其中最核心的部分： void Generate_decision_tree(Tree_Node * root,vectorint Samples, vectorint attribute_list,int class_id) 该函数由给定的训练数据产生一棵判定树。完整代码： #include stdio.h #include iostream #include vector #include math.h #include string.h using namespace std; typedef struct tnode { char tdata[100]; }tnode; typedef struct Tree_Node { char name[100]; bool isLeaf; //标记是否叶子节点 vectortnode att_list;//属性名称列表 vectorTree_Node * child_list; }Tree_Node,* pTreeNpde; typedef struct dnode { vectortnoderow; }dnode; typedef struct D_Node { vectordnodeDB; vectortnode attr_name; tnode class_name; }D_Node; D_Node G_DB; pTreeNpde Root = NULL; typedef struct FreeQNode { char name[100]; int count; vectorint Set_ID; }FreeQNode; typedef struct FreeQNodeDouble { char name[100]; int count; vectorint row_id; vectorFreeQNode classes;//存放分类属性列表及相应的出现次数 }FreeQNodeDouble; typedef struct attr_node { int attr_id; vectortnode attr_name; vectorint count_list; }attr_node; vectorattr_node G_Attr_List; typedef struct binNode { char name[100]; int count; vectorint Set_ID; struct binNode * lchild; struct binNode * rchild; }binNode; typedef struct binNodeDouble { char name[100]; int count; vectorint row_id; struct binNodeDouble * lchild; struct binNodeDouble * rchild; vectorFreeQNode classes; }binNodeDouble; void insert_tree(binNode * r, char str[100]) { if (NULL == r) { binNode * node = new binNode; strcpy(node-name,str); node-count = 1; //printf([%s,%d]\n,node-name,node-count); node-lchild = node-rchild = NULL; r = node; } else {

显示全部

相似文档