SPSS Modeler数据挖掘方法及应用(第4版) 课件 第1--7章 数据挖掘和SPSS Modeler使用概述---SPSS Modeler的决策树.pptx
SPSSModeler数据挖掘方法及应用(第4版)第一章数据挖掘和SPSSModeler使用概述
第1章数据挖掘和SPSSModeler使用概述数据挖掘的产生背景数据挖掘的产生和兴起是在计算机数据库技术蓬勃发展,人工智能技术应用领域不断拓展,统计分析方法不断丰富发展进程中,有效迎合数据分析的实际需求而逐步形成和发展起来的一门具有鲜明跨学科色彩的应用研究领域海量大数据的分析需求催生数据挖掘大规模海量数据的整合处理和深层次量化分析的实际需求,直接孕育了20世纪90年代初期的两项重大技术:数据仓库和数据挖掘。应用对理论的挑战催生数据挖掘数据库与数据仓库、人工智能与机器学习、统计学等理论的应用是数据挖掘诞生发展的坚实理论基础。
第1章数据挖掘和SPSSModeler使用概述什么是数据挖掘数据挖掘是一个利用各种方法,从海量的有噪声的凌乱数据中,提取隐含和潜在的,对决策有用的信息和模式的过程数据挖掘和数据库中的知识发现
第1章数据挖掘和SPSSModeler使用概述数据挖掘含义的理解数据挖掘中数据的“海量”特征一般体现在样本量庞大。或者,样本量不大但数据维度很高。或者,样本量庞大且数据维度很高;分布特征未知条件下的,高维非线性的,归纳型的分析方法,是数据挖掘方法的特色;数据挖掘得到的信息用于分类预测,模式用于对数据特征和关联性的客观刻画
第1章数据挖掘和SPSSModeler使用概述数据挖掘方法论数据挖掘是一个以数据为核心,多个环节紧密相连,循环反复且循序渐进的数据探索过程
第1章数据挖掘和SPSSModeler使用概述数据挖掘的任务数据总结、分类和回归、关联分析、聚类分析等主要任务数据总结:对数据的基本特征进行概括总结。通过数据总结,不仅能够实现对数据多维度多层次的汇总,还能够得到数据分布特征的精确概括
第1章数据挖掘和SPSSModeler使用概述分类和回归分类的主要目的是通过向数据“学习”,分析数据不同属性之间的联系,得到一种能够正确区分数据所属类别的规律。即通过“学习”建立一种包含分类规律的分类模型,且该模型能够对新数据所属类别进行自动预测。回归是对数值型属性的预测
第1章数据挖掘和SPSSModeler使用概述聚类分析聚类是一种在没有先验知识的条件下,根据某种相近程度的度量指标,对数据自动进行子集划分的技术。所形成的子集合内部数据的结构特征相近,不同子集之间的数据结构特征有较大相差关联分析关联分析就是通过数据分析,找到事物之间的相互关联规则。包括简单关联规则和时序关联规则
第1章数据挖掘和SPSSModeler使用概述数据挖掘得到的知识形式浓缩数据:一方面,浓缩数据可以是原始数据OLAP分析的结果;另一方面,浓缩数据也可以是通过计算数据中各个变量的重要程度,剔除那些对决策不重要的变量,并按一定原则合并数据记录,进行变量和样本压缩后得到的结果
第1章数据挖掘和SPSSModeler使用概述树形图:是数据分析过程和结果的树形式展现方式规则:是分析结论的一种逻辑表达形式。规则由条件和结论两部分组成数学模型:数据模型以数学函数的形式,定量反映了变量之间的相关数量关系。统计学中最常见的模型是一般线性回归模型
第1章数据挖掘和SPSSModeler使用概述数据挖掘算法的分类从算法分析数据的方式划分:假设检验型算法和知识发现型算法假设检验型算法:也称自顶向下(Top-Down)型算法。该类算法通常应首先提出某个理论假说,然后利用所收集的数据去证实假说。如果数据能够充分证实假说的不合理性,则应拒绝假说,反之不能拒绝假说知识发现行算法:也称自底向上(Bottom-Up)型算法。该类算法一般不对数据结论提出假设,而是通过对数据的分析,发现数据中隐含的事先并不知道的规律
机器学习算法的核心是通过对数据集p维属性空间的搜索,找到数据属性特征的恰当概括。根本任务是通过对有限的系统输入输出分析,估计输入输出的相关性并进行分类预测,或揭示系统的内在结构特征经典统计学方法更加强调模型的先期假设和后期验证,更加关注针对不同问题,应采用怎样的模型形式,怎样的损失函数和误差函数更能满足分析目标和数据类型的要求等第1章数据挖掘和SPSSModeler使用概述数据挖掘算法的分类从算法来自的学科类型划分:划分为机器学习算法和统计学算法假设检验型算法和知识发现型算法
第1章数据挖掘和SPSSModeler使用概述数据挖掘算法的分类从算法所得结果的类型划分:直接型数据挖掘算法和间接型数据挖掘算法直接型数据挖掘是一种“黑匣子”式的数据分析方式。核心任务是根据已有数据,建立分类或回归模型,并通过模型实现对新数据对象的预测等。这类分析方法重点关注模型的预测精度。间接型数据挖掘是一种“半透明”式的数据分析方式。核心任务是根据已有数