机器学习与数据挖掘.ppt
*DataMining:ConceptsandTechniques*分类过程(2):使用模型进行分类分类规则训练数据新数据(Jeff,Professor,4)Tenured?第37页,共57页,星期六,2024年,5月用决策树归纳分类决策树一个类似于流程图的数结构内部节点表示一个属性上的测试每个分支代表一个测试的输出叶结点代表类或类分布决策树的生成包括两个过程树的建构首先所有的训练样本都在根结点基于所选的属性循环的划分样本树剪枝识别和删除哪些反应映噪声或孤立点的分支决策树的使用:为一个未知的样本分类在决策树上测试样本的属性值*DataMining:ConceptsandTechniques*第38页,共57页,星期六,2024年,5月*DataMining:ConceptsandTechniques*训练数据集ThisfollowsanexampleofQuinlan’sID3(PlayingTennis)第39页,共57页,星期六,2024年,5月*DataMining:ConceptsandTechniques*概念“buys_computer”的决策树的输出age?overcaststudent?creditrating?=3040noyesyesyes31..40nofairexcellentyesno第40页,共57页,星期六,2024年,5月*DataMining:ConceptsandTechniques*决策树归纳的算法基本算法以自顶向下递归的各个击破方式构造决策树首先,所有的训练样本都在根结点所有属性都是分类的(如果值是连续的,它们应预先被离散化)基于所选属性递归的划分样本在启发式或统计度量的基础上选择测试属性(例如,信息增益)停止划分的条件给定节点的所有样本属于同一个类没有剩余属性可以用来进一步划分样本-使用多数表决来分类叶节点没有剩余的样本第41页,共57页,星期六,2024年,5月属性选择度量信息增益(ID3/C4.5)所有的属性值被假定为分类的修正后可以用在连续值属性上Giniindex(IBMIntelligentMiner)所有的属性被假定为连续值假定对每个属性存在一些可能的分裂(split)值需要一些其他的工具,像聚类,来得到可能的分裂值修正后可以用在分类属性上第42页,共57页,星期六,2024年,5月*DataMining:ConceptsandTechniques*信息增益(ID3/C4.5)选择具有高信息增益的属性假定有两个类,P和N假定样本集S包含类P的p个元素和类N的n个元素如果S中任意的例子属于P或N,则需要决定的信息数量被定义为第43页,共57页,星期六,2024年,5月决策树归纳的信息增益假设用属性A将集合S被划分为V个子集{S1,S2,…,Sv}如果Si包含P中的pi个样本和N中的ni个样本,则熵,或所有用来分类所有子树Si中对象的期望信息由以下式给出:由A上分支将获得编码信息第44页,共57页,星期六,2024年,5月*DataMining:ConceptsandTechniques*AttributeSelection:InformationGain类P:buys_computer=“yes”类N:buys_computer=“no”means“age=30”has5outof14samples,with2yes’esand3no’s.HenceSimilarly,第45页,共57页,星期六,2024年,5月*DataMining:ConceptsandTechniques*贝叶斯定理:Basics设X是数据样本(“证据”):类标号未知令H为X属于类C的某种假设分类就是确定P(H|X)——给定“证据”或观察数据元组X,假设H成立的概率P(H)(先验概率),theinitialprobabilityE.g.,Xwillbuycomputer,regardlessofage,income,…P(X):X的先验概率P(X|H)(后验概率),假设H成立的条件下,观察数据样本X后验概率E.g.,GiventhatXwillbuycomputer,theprob.thatXis31..40,med