数据挖掘概念与技术原书第2版第4章_数据立方体计算与数据泛化体.ppt.pdf
文本预览下载声明
数据泛化
◦ 通过将相对层次较低的值(如属性age的数值)用较高层次
的概念(如青年、中年、老年)置换来汇总数据
1
2 (青年,中年,老年)
概念层 3
4
5 (17,18,19,…,34,35,36,…,56,57,…)
主要方法:
◦ 数据立方体(OLAP使用的方法)
◦ 面向属性的归纳方法
1 2
数据泛化 从数据分析的角度看,数据挖掘可以分为描述性挖
◦ 数据库中的数据和对象通常包含原始概念层的细节信息,数 掘和预测性挖掘
据泛化就是将数据库中的跟任务相关的大型数据集从相对较
低的概念层抽象到较高的概念层的过程。 ◦ 描述性挖掘:以简洁概要的方式描述数据,并提供数据的
有趣的一般性质。
1 E.g. 数据泛化就是一种描述性数据挖掘
2 (Month, *, *) ◦ 预测性数据挖掘:通过分析数据建立一个或一组模型,并
概念层 3 试图预测新数据集的行为。
4
E.g 分类、回归分析等
5 (Month, city, customer_group)
主要方法:
◦ 数据立方体(OLAP使用的方法)
◦ 面向属性的归纳方法
显示全部