数据仓库与数据挖掘技术教案PPT(6-10章).ppt
文本预览下载声明
第6章 数据挖掘基本算法 本章内容: 6.1 分类规则挖掘 6.2 预测分析与趋势分析规则 6.3 数据挖掘的关联算法 6.4 数据挖掘的聚类算法 6.5 数据挖掘的统计分析算法 6.6 数据挖掘的品种优化算法 6.7 数据挖掘的进化算法 6.1 分类规则挖掘 6.1.1分类与估值 1 分类 为了理解事物特征并做出预测使用历史数据建立一个分类模型(即分类器)的过程 。 应用于信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等 实践应用参照课本 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1.1分类与估值 4 评估分类方法 要考虑的指标:预测准确率、速度、创建速度、使用速度、鲁棒性、处理噪声和丢失值、伸缩性、对磁盘驻留数据的处理能力、可解释性、对模型的可理解程度、规则好坏的评价、决策树的大小和分类规则的简明性。 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1 分类规则挖掘 6.1.3 贝叶斯分类 2.贝叶斯定理与朴素贝叶斯分类 贝叶斯定理: P(H|X)=P(X|H)P(H)/P(X) 其中,P(H|X)表示条件X下H的概率,也称为条件概率或称为后验概率(posteriori probabilities)。 朴素贝叶斯分类: 假定有m个类C1, … Cm,对于数据样本X,分类法将预测X属于类Ci,当且仅当 P(Ci|X) P(Cj|X), 6.2预测分析与趋势分析规则 6.2.1 预言的基本方法 预言(prediction)是一门掌握对象变化动态的科学,它是对对象变动趋势的预见、分析和判断,也是一种动态分析方法。 预测的基本步骤: 确定预测目标,包括预测对象、目的、对象范围; 收集分析内部和外部资料; 数据的处理及模型的选择; 预测模型的分析、修正; 确定预测值。 6.2 预测分析与趋势分析规则 6.2.2 定量分析预测 时间序列法 回归预测 非线性模型 灰色预测模型GM(1,1) 组合预测 6.2 预测分析与趋势分析规则 6.2.3预测的结果分析 预测的结果分析要考虑到的因素: 相反的预测结果 胜出裕度 成本收益分析 6.2 预测分析与趋势分析规则 6.2.4 趋势分析挖掘 分析时间序列数据需要注意以下方面 : 长时间的走向 周期的走向与周期的变化 季节性的走向与变化 不规则的随机走向 6.3 数据挖掘的关联算法 6.3.1 关联规则的概念及分类 1.关联规则的概念 定义1 设I={i1、i2、i3,…,im}是由m个不同的数据项目组成的集合,其中的元素称为项(item),项的集合称为项集,包含k个项的项集称为k项集,给定一个事务(交易)D,即交易数据库,其中的每一个事务(交易)T是数据项I的一个子集,即,T有一个惟一的标积符TID;当且仅当时,称交易T包含项集X;那么关联规则就形如“X=Y”的蕴涵式;其中,,,Ф,即表示满足X中条件的记录也一定满足Y。关联规则X=Y在交易数据库中成立, 具有支持度s和具有置信度c 。 这也就是交易数据集D中具有支持度s,即D中至少有s%的事务包含,描述 为:support(X=Y)= 比如Support(X=Y )=同时购买商品X和Y的交易数?总交易数 同时交易数据集D中具有置信度c,即D中包含X的事务至少有c%同时也包含Y,描述为:confidence(X=Y)= 比如购买了商品X,同时购买商品Y可信度,confidence(X=Y)=同时购买商品X和Y的交易数?购买了商品X的交易数 一般称满足一定要求的规则为强规则。通常称满足最小支持度和最小置信度的关联规则为强关联规则(strong)。一般将最小支持度简记为minsup和最小置信度简记为minconf。 6.3 数据挖掘的关联算法 6.3.1 关联规则的概念及分类 2 关联规则的分类 6.3 数据挖掘的关联算法 6.3.2 简单形式的关联规则算法(单维、单层和布尔关联规则) 1.简单形式的关联规则的核心算法 找到所有支持度大于最小支持度的项集,即频集,有k个数据频集称为k项频集.找出所有的频集由apriori算法实现。Apriori性质具有一个频集的任一非空子集都是频集。 使用第1步找到的频集产生期望的规则 apriori算法的详细介绍见课本。 6.3 数据挖掘的关联算法 6.3.2 简单形式的关联规则算法(单维、单
显示全部