数据仓库与数据挖掘课程实验.doc
文本预览下载声明
数据仓库与数据挖掘课程实验
课程实验
课程实验部分安排八个有代表性的上机实验与课程内容相呼应,每一个实验安排两学时。学生应在实际操作中规范地完成各项实验。更深入理解数据仓库及OLAP系统工作原理,构建数据仓库、熟练掌握OLAP操作。实验完成后,教师在实验结束前,现场验收学生的完成情况,并给出现场评定,最后结合实验报告给出实验成绩。
实验一 认识sql server2000
实验目的
通过某个商用数据库管理系统的安装使用,初步了解DBMS的工作环境和系统构架。
熟悉对DBMS的安装。搭建今后实验的平台。
了解所选DBMS系统的主要组件。
理解数据库、数据表、属性、关键字等关系数据库中的基本概念。
熟悉利用管理器创建数据库、数据表并向表中插入数据
查询数据表中数据。
实验平台
操作系统:windows2000或者windows XP
数据库管理系统:国产如KingbaseES,国外如:MS SQL Server, Oracle。
实验内容及要求
安装和启动
根据安装文件的说明安装数据库管理系统。在安装过程中记录安装的选择,并且对所作的选择进行思考,为何要进行这样的配置,对今后运行数据库管理系统会有什么影响。
学会启动和停止数据库服务,思考可以用哪些方式来完成启动和停止。
初步了解的安全性这里主要是用户的登录和服务器预定义角色。可以尝试建立一个新的用户,赋予其数据库管理员的角色,今后的实验可以用该用户来创建数据库应用。
数据库系统的构架
了解数据库系统的逻辑组件:它们主要是数据库对象,包括基本表、视图、触发器、存储过程、约束等。今后将学习如何操作这些数据库对象。
的管理和使用
了解如何通过它提供的工具对数据和数据库服务器进行管理使用的。
学会运用控制管理器和企业管理器进行操作。
Sno,cno,tno分别是各表的主键,具有唯一性约束
向各个数据表中输入适当的数据。
查询表中的数据。
了解系统其他管理工具
Publishers 出版社表 记录出版社的基本信息 2 Pub_info 出版社信息表 记录出版社的标志和其他信息 3 Employee 雇员表 记录雇员的基本信息 4 Jobs 工作表 记录工作的基本信息 5 Roysched 版税表 记录图书的版税情况 6 Titles 图书表 记录图书的基本信息 7 Titleauthor 图书作者表 记录图书和作者之间的关系 8 Authors 作者表 记录作者基本信息 9 Sales 销售表 记录图书在各书店的销售信息 10 Stores 书店表 记录书店的基本信息 11 discounts 折扣表 记录书店的打折信息 针对需求进行归纳,发现分析的角度可以分为出版社、图书、作者、书店和时间5大类。确定的主题是销售。
数据筛选:
Publishers所有字段应当加入到数据仓库中。
不需要出版社详细资料,所以Pub_info不必加入数据仓库。
不需要出版社中员工的信息,所以employee和jobs不需要;
同样与税率相关的roysched表和titles表中的royalty和titleauthor表中的royaltyper字段排除掉。
也不需要图书的预付款、年销售量、出版日期、摘要说明等信息,排除了titles表中的advance,ytd_sales,notes和pubdate .
对于书店表,公司只对书店的地理位置感兴趣;暂不考虑折扣情况。
可用的数据:
Publishers所有字段
Titles(title_id, pub_id, title, type, price)
Authors( au_id, au_lname, au_fname)
Sales( stor_id, title_id ord_num, qty, ord_date)
Stores( stor_id, stor_name, city, state)
识别事实数据与维度数据
事实数据 维度数据 规模 几百万笔/上亿笔数据 远比事实数据少 数据标识 拥有多个外键 只有单一主键 数据类型 数值数据 字符数据 数据性质 不会改变 经常改变 系统分析的范围归纳为出版社、作者、图书、书店和时间5大类,维度就是数据分析的角度,可以分为5项:
出版社:publisher表中的全部字段属于出版社维度,city,state,country有层次结构。
作者:author表中的属性为图书维
图书: sales.title_id, title表中除了price其他title_id,title,type,pub_id为图书维。Price为事实。
书店:store全部字段为图书维度,sales.store_id,
时间:sales.ord_date
关于事实:sales中的ord_num
显示全部