2025年大数据仓库与大数据挖掘课程设计.doc
目录
TOC\o1-3\h\z1.绪论 2
1.1项目背景 2
1.2提出問題 2
2数据库仓库与数据集的概念简介 2
2.1数据仓库 2
2.2数据集 2
3数据仓库 3
3.1数据仓库的设计 3
3.1.1数据仓库的概念模型设计 3
3.1.2数据仓库的逻辑模型设计 3
3.2数据仓库的建立 3
3.2.1数据仓库数据集 3
3.2.2建立维表 4
4.数据挖掘操作 4
4.1数据预处理 4
4.1.1描述性数据汇总 4
4.2决策树 4
5、试验心得 12
6、大总結 12
绪论
1.1项目背景
在目前大数据時代,各行各业需要對商品及有关关节的数据進行搜集处理,尤其零售行业,于企业對产品的市場需求進行科學合理的分析,從而预测出未来的市場,制定出高效的决策,給企业带来經济收益。
1.2提出問題
對于超市的商品的购置時期和购置数量的怎样决定,才可以使销售量最大,不积压商品,不缺货,對不一样步期季节和不一样人群制定不一样方案,使企业收益最大,通過数据挖掘對数据進行决策树分析,关联分析,次序分析与决策分析等可以制定出最佳方案。
2数据库仓库与数据集的概念简介
2.1数据仓库
数据仓库是為企业所有级别的决策制定過程提供支持的所有类型数据的战略集合。它是單個数据存储,出于分析性汇报和决策支持的目的而创立。為企业提供需要业务智能来指导业务流程改善和监视時间、成本、质量和控制。
数据仓库是决策系统支持(dss)和联机分析应用数据源的构造化数据环境。数据仓库研究和处理從数据库中获取信息的問題。数据仓库的特性在于面向主題、集成性、稳定性和時变性。
2.2数据集
数据集是指一种由数据所构成的集合。Dataset(或dataset)是一种数据的集合,一般以表格形式出現。每一列代表一种特定变量。每一行都對应于某一组员的数据集的問題。它列出的价值观為每一种变量,如身高和体重的一种物体或价值的随机数。每個数值被称為数据资料。對应于行数,该数据集的数据也許包括一种或多种组员。
3数据仓库
3.1数据仓库的设计
3.1.1数据仓库的概念模型设计
概念模型的设计是整個概念模型開发過程的三阶段。设计阶段根据概念模型分析以及分析過程中搜集的任何数据,完毕星型模型和雪花型模型的设计。假如仅依赖ERD,那只能對商品、销售、客户主題设计成如图所示的概念模型。這种模型适合于老式的数据库设计,但不适合于数据仓库的设计。
3.1.2数据仓库的逻辑模型设计
逻辑建模是数据仓库实行中的重要一环,由于它能直接反应出各個业务的需求,同步對系统的物理实行有著重要的指导作用,它的作用在于可以通過实体和关系勾勒出企业的数据藍图,数据仓库的逻辑模型设计任务重要有:分析主題域,确定要装载到数据仓库的主題、确认粒度层次划分、确认数据分割方略、关系模式的定义和记录系统定义、确认数据抽取模型等。逻辑模型最终设计成果包括每個主題的逻辑定义,并将有关内容记录在数据仓库的元数据中、粒度划分、数据分割方略、表划分和数据来源等。
3.2数据仓库的建立
3.2.1数据仓库数据集
一般說来,一种数据集市是按照某一特定部门的决策支持需求而组织起来的、针對一组主題的应用系统。例如,财务部拥有自已的数据集市,用来進行财务方面的报表和分析,市場推广部、销售部等也拥有各自专用的数据集市,用来為本部门的决策支持提供辅助手段。数据集市大都采用多维数据库技术,這种技术對数据的分析而言也許是最优的,但肯定不适合于大量数据的存储,由于多维数据库的数据冗余度很高。為了提高速度,對数据集市中的数据一般都建立大量的索引。换言之,数据集市中往往靠對数据的预处理来换取运行時的高速度,當业务部门提出新的問題時,假如不在本来设计的范围内,则需要数据库管理员對数据库作許多调整和优化处理。
3.2.2建立维表
维是分析問題的角度,度量是要分析的問題。
多维视图:用包括度量和维的表的数据构造可以创立一种多维视图,用试題和维创立的多维模型称為星型模型,星型模型生成的重要表格被称為事实表。事实表的属性值几乎均有持续值。事实表是规范化的。与维表不一样不是随時间的推移变化,而是不停变大。
维表:星型模型也具有非常小的表,用来装载描述信息。维表是逆规范化的。假如把维表置于第二范式中,這样的表称為雪花模型。
维表包括主键,一般對应事实表的外部键。假如维表的主键不在实事表中,這個主键字便被称作退化的维。
创立维表:有3种措施:星型模型、雪花模型和星暴模型。星暴模型具有两张以上的事实表。基本有些充當维事实表。
星型模型:所有信息维都放在同一种维表中。维表信息包括一种唯一的標识符(ID)和通過這個维表建立