《数据仓库与数据挖掘》实验指导书 .doc
文本预览下载声明
《》实验指导书
(适用于专业)
前 言 1
SPSS Clementine 软件功能演练 5
SPSS Clementine 数据可视化 9
C5.0 建模 10
21
/异常检测/神经网络 29
(CRT) 40
Logistic 回归 50
56
5405190
12
是一门理论和实践相结合的课程它在整个中处于地位是计算机科学的算法理论基础和主要算法设计和的能力,加深对数据算法的理解。
序号 实验名称 实验学时 每组人数 实验属性 实验者类别 开出要求 本科 本科 验证综合 本科 验证综合 本科 验证综合 本科 验证综合 本科 验证综合 本科 本科 实验一、SPSS Clementine 软件功能演练
Windows 的“开始”菜单中选择:
SPSS Clementine 11.1
SPSS Clementine client 11.1
Clementine 中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区的下方。每个选项卡都包含一组以图形表示数据挖掘任务的节点,例如访问和过滤数据,创建图形和构建模型。
实验二、SPSS Clementine 数据可视化
Windows 的“开始”菜单中选择:
PSS Clementine 11.1
SPSS Clementine client 11.1
实验三、决策树C5.0 建模
此 demo 中使用的数据字段包括:
年龄 (数值) 性别 M 或 F BP 血压:高、正常或低 胆固醇 血液中的胆固醇含量:正常或高 Na 血液中钠的浓度 K 血液中钾的浓度 药品 对患者有效的处方药
最终图表将有助于查看数据的“结构”。结果表明,药品 Y 的对症患者最多,而药品 B 和药品 C 的对症患者最少。
此外,还可以添加并执行数据审核节点,同时快速浏览所有字段的分布图和直方图。
4、创建散点图
将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑
此散点图清楚地显示一个阈值,在此阈值上方,对症药品始终是 Y,在此阈值下方,对症药品均不是 Y。此阈值是一个比率,即钠(Na)和钾(K)的比率。
5、创建网络图
因为很多数据字段均可分类,也可尝试绘制网络图,此图表将反映不同类别之间的联系。首先,将网络节点与您工作区中的源节点相连接。
在“网络节点”对话框中,选择 BP(血压)和药品。然后单击执行。
此图显示,药品 Y 与三种级别的血压均相关。Y 是最佳药品。
。 实验四、关联规则挖掘
现在,执行该流以将“类型”节点实例化并显示表。数据集包含 18 个字段,其中每条记录表示一个购物篮。
下列标题中会显示 18 个字段。
购物篮摘要:
cardid.购买此篮商品的客户的忠诚卡标识符。
value.购物篮的总购买价格。 sex
age
fruitveg
freshmeat
dairy
cannedveg
cannedmeat
frozenmeal
beer
wine
softdrink
fish
confectionery
指定了用于建模的字段后,请将 GRI 节点附加到“类型”节点,编辑它,选择选项只显示值为真的标志变量,然后执行 GRI 节点。结果(管理器窗口右上角“模型”选项卡上的非精练模型)包含您可以查看(使用上下文菜单,然后选择浏览)的关联规则。
这些规则显示冻肉、罐装蔬菜和啤酒之间存在多
显示全部