文档详情

1数据挖掘每章知识.pdf

发布:2020-09-19约1.79万字共22页下载文档
文本预览下载声明
第一章 1.数据挖掘定义:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提 取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 2.不能在原数据库上做决策而要建造数据仓库的原因: 传统数据库的处理方式和 决策分析中的数据需求不相称, 主要表现在: ⑴决策处理的系统响应问题⑵决策 数据需求的问题⑶决策数据操作的问题 3.数据仓库的定义 W.H.Inmon 的定义:数据仓库是一个面向主题的、集成的、非易失的且随时间变 化的数据集合,用来支持管理人员的决策。 公认的数据仓库概念基本上采用了 W.H.Inmon 的定义:数据仓库是面向主题的、 集成的、不可更新的(稳定性)随时间不断变化(不同时间)的数据集合,用以 支持经营管理中的决策制定过程。 4.数据仓库与数据挖掘的关系: ⑴数据仓库系统的数据可以作为数据挖掘的数据源。 数据仓库系统能够满足数据 挖掘技术对数据环境的要求, 可以直接作为数据挖掘的数据源。 ⑵数据挖掘的数 据源不一定必须是数据仓库系统。 数据挖掘的数据源不一定必须是数据仓库, 可 以是任何数据文件或格式, 但必须事先进行数据预处理, 处理成适合数据挖掘的 数据。 5. 数据挖掘的功能—— 7 个方面 : ⑴概念描述: 对某类对象的内涵进行描述, 并概括这类对象的有关特征。 ①特征 性描述②区别性描述 ⑵关联分析: 若两个或多个变量间存在着某种规律性, 就称为关联。 关联分析的 目的就是找出数据中隐藏的关联网。 ⑶分类与预测①分类②预测 ⑷聚类分析: 客观的按被处理对象的特征分类, 将有相同特征的对象归为一类。 ⑸趋势分析: 趋势分析——时间序列分析, 从相当长的时间的发展中发现规律和 趋势。 ⑹孤立点分析:孤立点:数据库中包含的一些与数据的一般行为或模型不一致 的数据。 ⑺偏差分析: 偏差分析——比较分析, 是对差异和极端特例的描述, 揭示事物偏 离常规的异常现象。 6. 数据挖掘常用技术: ⑴数据挖掘算法是数据挖掘技术的一部分 ⑵数据挖掘技术用于执行数据挖掘功能。 ⑶一个特定的数据挖掘功能只适用于给定的领域。 按照上述思想, 数据挖掘技术 主要包含以下几种: ⑴聚类检测方法⑵决策树方法 ⑶人工神经网络方法。 人工神经网络方法:前馈式网络、反馈式网络和自组织网络。 7. 遗传算法基本算子:繁殖、交叉和变异。 8.数据挖掘应用领域: ⑴金融业⑵保险业⑶零售业⑷科学研究⑸其他领域 9. 数据挖掘研究方向: (1)专门用于知识发现的形式化和标准化的数据挖掘语言; (2)数据挖掘过程中的便于用户理解的及人机交互的可视化方法; (3)网络环境下的数据挖掘技术; (4)加强对各种非结构化数据的挖掘。 10. 数据挖掘应用的热点: (1)网站的数据挖掘( 2 )生物信息或基因的数据挖掘( 3 )文本的数据挖掘 11. 数据挖掘技术是一门综合性的技术领域,主要涉及数据库、人工智能和数理 统计 3 个技术领域。 12. 数据挖掘产生的前提是:从大量数据中找出隐藏在其中的、有用的信息和规 律;计算机技术和信息技术的发展使其有能力处理这样大量的数据。 第二章 1.主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归 类并进行分析利用的抽象。 面向主题的数据组织方式, 就是在较高层次上对分析 对象的数据的一个完整、 一致的描述, 能完整、 统一地刻画各个分析对象所涉及 的企业的各项数据,以及数据之间的联系。 从信息管理的角度——在一个较高的管理层次上对信息系统中的数据按照某一 具体的管理对象进行综合、归类所形成的分析对象。 从数据组织的角度——一些数据集合,
显示全部
相似文档