文档详情

机器学习与数据挖掘.ppt

发布:2025-04-30约7.98千字共57页下载文档
文本预览下载声明

数据挖掘功能 数据挖掘任务有两类:第一类是描述性挖掘任务:刻划数据库中数据的一般特性;第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。第30页,共57页,星期日,2025年,2月5日概念/类描述:特征化和区分概念/类描述(class/conceptdescription):用汇总的、简洁的、精确的方式描述每个类和概念。数据特征化(datacharacterization):是目标类数据的一般特征或特性的汇总。其中数据特征的输出形式有:饼图、条图、曲线、多维数据立方体、多维表等。数据区分(Datadiscrimination):是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。第31页,共57页,星期日,2025年,2月5日关联分析(1)定义:关联分析(associationanalysis):发现关联规则,这些规则展示“属性—值”频繁地在给定数据集中一起出现的条件。(2)实例age(x,“20..29”)?income(X,“20K..29K”)?buys(X,“CD_player”)[support=2%,confidence=60%]Diaper?Beer[0.5%,75%]第32页,共57页,星期日,2025年,2月5日分类和预测(1)定义分类(classification):通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。(2)分类模型的导出方式分类规则(IF-THEN)、决策树、数学公式、神经网络等。第33页,共57页,星期日,2025年,2月5日聚类分析(1)定义聚类(clustering):将类似的数据归类到一起,形成一个新的类别进行分析。(2)聚类或分组的原则“最大化类内的相似性、最小化类间的相似性”对象的簇(聚类)的形成办法为:使得在一个簇中的对象具有很高的相似性,而与其它簇中的对象很不相似。所形成的每个簇可以看作一个对象类,由它可以导出规则。第34页,共57页,星期日,2025年,2月5日*DataMining:ConceptsandTechniques*分类——一个两步的过程Step1:建立描述预先定义的数据类或概念集的分类器假设每一元组/样本属于一个预定的类,由一个类标号属性的属性确定用来建立模型的元组集被称为训练样本集模型可用分类规则,决策树或数学公式表示Step2:模型的使用:为了分类将来或未知的对象评估模型的准确性对于每个测试样本,将已知的的类标号和该样本的模型分类结果进行比较准确率是正确被模型分类的测试样本的百分比测试集独立于样本集,否则会出现过分适合的现象第35页,共57页,星期日,2025年,2月5日*DataMining:ConceptsandTechniques*分类过程(1):建立模型训练数据分类算法IFrank=‘professor’ORyears6THENtenured=‘yes’分类规则(模型)第36页,共57页,星期日,2025年,2月5日*DataMining:ConceptsandTechniques*分类过程(2):使用模型进行分类分类规则训练数据新数据(Jeff,Professor,4)Tenured?第37页,共57页,星期日,2025年,2月5日用决策树归纳分类决策树一个类似于流程图的数结构内部节点表示一个属性上的测试每个分支代表一个测试的输出叶结点代表类或类分布决策树的生成包括两个过程树的建构首先所有的训练样本都在根结点基于所选的属性循环的划分样本树剪枝识别和删除哪些反应映噪声或孤立点的分支决策树的使用:为一个未知的样本分类在决策树上测试样本的属性值*DataMining:ConceptsandTechniques*第38页,共57页,星期日,2025年,2月5日*DataMining:ConceptsandTechniques*训练数据集ThisfollowsanexampleofQuinlan’sID3(PlayingTennis)第39页,共57页,星期日,2025年,2月5日*DataMining:ConceptsandTechniques*概念“buys_computer”的决策树的输出age?overcaststudent?creditrating?=3040noyesyesy

显示全部
相似文档