数据挖掘技术.ppt
3.4.1概述随着科学技术的迅速发展,预测理论也得到了长足的进步,出现了不少新的研究方法,综合起来主要包括:人工神经网络(ANN)预测方法专家系统预测方法模糊预测方法小波分析预测方法优选组合预测方法等第157页,共176页,星期六,2024年,5月3.4.1概述人工神经网络(ANN)预测方法目前应用最广泛的短期预测方法。它是一种通用的非线性自适应函数估计器,通过对研究目标的历史数据训练,建立起复杂的非线性映射模型。它不依赖于输入变量和预测目标之间明确的表达式,输入变量和预测目标之间的关系通过训练过程来形成,避免了建模过程的困难;另一显著特征是它的自适应算法,在每一时刻都可以选择新的训练样本来估计和调整系统参数,得到预测值。现在多采用误差反向传播(BP)算法和径向基函数(RBF)方法。但是,它的隐层神经元个数不易确定,易陷入局部最优点,需要大量训练样本且训练时间较长。第158页,共176页,星期六,2024年,5月3.4.1概述专家系统预测方法基于知识建立起来的计算机系统,它拥有某个领域内专家们的知识和经验,能像专家们那样运用这些知识,通过推理作出决策。实践证明,专家系统预测不仅需要新技术的支持,同时也需要融合人类自身的经验和智慧。因此,需要专家系统的相关技术。但是,知识获取的“瓶颈”问题妨碍了专家系统的快速开发。第159页,共176页,星期六,2024年,5月3.4.1概述模糊预测方法建立在模糊数学理论上的一种预测新技术,模糊数学是用数学方法来研究和处理具有“模糊性”的现象。所谓模糊性主要是指有关事物差异的中间过渡中的不分明性,如温度值的“高与低”等,这些模糊现象很难明确划分其界限。第160页,共176页,星期六,2024年,5月3.4.1概述小波分析预测方法20世纪数学研究成果中最杰出的代表。它是一种时域—频域分析方法,在时域和频域上同时具有良好的局部化性质。第161页,共176页,星期六,2024年,5月3.4.1概述优选组合预测方法(两种)一是指将几种预测方法所得预测结果,选取适当权重进行加权平均;二是指将几种预测方法进行比较,选择拟合优度最佳或标准离差最小的预测模型作为最优模型进行预测。组合预测方法是建立在信息利用最大化的基础上,它集结多种单一模型所包含的信息,进行最优组合。因此,在大多数情况下,通过组合预测可以达到改善预测结果的目的。第162页,共176页,星期六,2024年,5月线性回归Y=?+?X利用实际数据估计参数?和?对已知值的Y1,Y2,…,X1,X2,….进行最小平方运算多元回归Y=b0+b1X1+b2X2.很多非线性方程均可以转换为上述的形式Log-linear模型Themulti-waytableofjointprobabilitiesisapproximatedbyaproductoflower-ordertables.Probability:p(a,b,c,d)=?ab?ac?ad?bcd3.4.2典型算法第163页,共176页,星期六,2024年,5月CHAMELEON算法CHAMELEON算法是由G.Karypis,E.H.Han和V.Kumar在1999年提出的一种动态层次聚类方法。基于动态模型计算相似性只有当两个类之间的相似性高于类内对象的相似性时合并两个类。本质上,是一个两阶段算法1.首先,使用图分割算法将数据集合划分为多个子集;2.然后,使用层次聚类中的凝聚方法将这些子集进行反复的合并,直至获得最终的聚类结果。第125页,共176页,星期六,2024年,5月CHAMELEON算法ConstructSparseGraphPartitiontheGraphMergePartitionFinalClustersDataSet第126页,共176页,星期六,2024年,5月3.3.2.1聚类方法分类基于密度的聚类方法这类算法的思想是,只要某簇邻近区域的密度超过设定的某一阈值,则扩大簇的范围,继续聚类。这类算法可以获得任意形状的簇。典型算法:DBSCAN、OPTICS和DENCLUE等第127页,共176页,星期六,2024年,5月3.3.2.1聚类方法分类基于网格的聚类方法基于网格的聚类算法首先将问题空间量化为有限数目的单元,形成一个空间网格结构,随后聚类在这些网格之间进行。这类算法速度较快。典