数据挖掘 习题 .docx
数据挖掘课后习题
第1章
1、数据采集旨在找到可用于训练模型的数据集,主要包括哪三种技术?()
A.数据发现、数据增强、数据生成
B.数据清洗、数据标注、数据预处理
C.数据挖掘、模式识别、机器翻译
D.数据共享、数据检索、数据合成
2、以下哪个不是数据标注——基于众包技术中提到的质量控制方法?()
A.使用多个工人重复标注同一示例
B.进行多数投票
C.手动标注每一条实例
D.有效地向工作人员提供如何执行标签的说明
3.请简述数据挖掘的含义及其应用场景。
4.请简述数据挖掘的基本任务。
5.请简述数据挖掘的主要步骤。
6.请列举数据采集的主要方式。
第2章
1.关于数据归约,以下说法错误的是?()
A.数据归约可以减少数据存储空间
B.数据归约可以提高数据挖掘算法的效率
C.数据归约一定会导致信息丢失
D.数据归约是数据预处理的一个重要步骤
2.在数据挖掘之前为什么要对原始数据进行预处理。
3.请简述数据集成可能会遇到的挑战。
4.现实世界中的数据在某些属性上常常存在缺失值,请简述处理该问题的各种方法。
第3章
1、下面列出的条目中,哪项不是数据仓库的基本特征?()
A.数据仓库是面向主题的
B.数据仓库集成多个异构数据源
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
2、下面的数据仓库操作中,哪项不是多维数据模型上的OLAP操作?()
A.上卷
B.选择
C.下钻
D.旋转
3、以下哪种数据仓库模式中,中心是一个事实表,周围围绕着多个维度表?()
A.雪花模式B.事实星座模式C.星形模式D.以上都不是
4、请简述数据仓库定义,并列举利用维表和事实表处理多维数据模型的几种常用模式。
5、请列举数据仓库的四个特征及常见的OLAP操作。
6、请简述数据库与数据仓库的主要区别。
第4章
1.关联规则挖掘的一般步骤不包括以下哪项?()
A.数据预处理
B.模型训练
C.产生频繁项集
D.生成规则
2.在关联规则挖掘中,支持度计数是指()
A.项集在所有事务中出现的次数
B.项集在部分事务中出现的次数
C.项集在频繁事务中出现的次数
D.项集在非频繁事务中出现的次数
3.关联规则挖掘设置较高的最小支持度阈值时,可能遇到什么问题?()
A.忽略了稀疏但可能重要的模式
B.发现更多的频繁项集
C.计算时间显著增加
D.提高了规则的置信度
4.请简述FP-Growth算法相比Apriori算法的优势。
5.假设最小支持度=60%,最小置信度=80%,根据下表计算购买行为的相关信息:
(1)计算2-项集{O,K}的支持度;
(2)列出所有频繁项集;
(3)规则{K,E}→Y是否成立。
交易号(TID)
商品(Items)
1
M,O,N,K,E,Y
2
D,O,N,K,E,Y
3
M,A,K,E
4
M,U,C,K,Y
5
C,O,K,I,E
第5章
1.数据挖掘中的分类任务与回归任务的主要区别是什么?()
A.分类任务的输出是连续的,回归任务的输出是离散的。
B.分类任务的输出是离散的,回归任务的输出是连续的。
C.分类和回归任务的输出都是连续的。
D.分类和回归任务的输出都是离散的。
2.决策树分类中,以下哪种度量标准用于选择最优特征进行节点分裂?()
A.方差
B.信息增益
C.熵
D.支持度
3.支持向量机(SVM)在解决非线性可分问题时,通常使用哪种技术?()
A.决策树
B.核函数
C.聚类
D.贝叶斯定理
4.简述决策树定义及其构建方法。
5.请简述支持向量机的分类原理、构建方法。
6.下表提供了一个关于是否要踢球的训练数据集合,包含天气、温度、湿度、风力这四个属性,其类别属性为踢球,包含两个不同的取值{yes,no}。
天气
温度
湿度
风力
足球
阴天
热
高
弱
Yes
晴天
热
高
弱
No
晴天
热
高
强
No
阴天
热
正常
弱
Yes
雨天
温暖
高
弱
Yes
晴天
冷
正常
弱
Yes
雨天
冷
正常
弱
Yes
雨天
温暖
正常
弱
Yes
雨天
冷
正常
强
No
阴天
冷
正常
强
Yes
晴天
温暖
高
弱
No
阴天
温暖
高
强
Yes
根据上面训练数据集,采用朴素贝叶斯分类方法对下列未知样本进行分类,并给出具体步骤,其中未知样本为:
X=(天气=青托,温度=温暖,湿度=高,风力=强)
第6章
1.下列哪种聚类算法属于划分聚类算法?()
A.K均值算法
B.AGNES算法
C.DBSCAN算法
D.谱聚类算法
2.下列选项中关于K-means算法描述错误的是()。
A.簇数K必须是预先设定的
B.聚类结果是全部最优解
C