数据仓库与数据挖掘期末试题.doc
文本预览下载声明
广西财经学院2007——2008学年第一学期
《数据仓库与数据挖掘》课程期末考试试卷(A) 卷
适用班级:电商本0541、0542
考试时间:120分钟 (开卷机试) 考查课程
命题老师签名:郑华 教研室主任签名:
课程开课系:计信系
注意:本次考试是开卷上机考,请大家独立分析完成。如果发现有相同的答卷,则二人都为0分,请大家自觉!
请大家在2007年12月25日之前把做好的答卷发送到老师的邮箱:gxhuazheng@,过期不候.
题号 一 二 三 四 五 六 七 八 九 十 总分 应得分 20 30 30 20 100 实得分 评卷人
名词解释(每题4分,共20分)
1、数据仓库
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。
通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。
是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。将训练集函数表示成树结构,通过它来近似离散值的目标函数。这种树结构是一种有向树,它以训练集的一个属性作节点,这个属性所对应的一个值作边。决策树一般都是自上而下的来生成的。
1、企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型?
首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。
2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。ETL工具Ascential DataStage ,IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream市场上的主流数据仓库存储层软件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA
SQL SERVER和数据挖掘工具Analysis Services,而且不大熟悉。
3、请谈一下你对元数据管理在数据仓库中的运用元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。
1、附件有一名为“Data Mining in Electronic Commerce”的电子文档,请同学们翻译其中的一段。每位同学翻译的段号以大家学号的最后两位为准,如10号同学只需翻译正文的第10段,以此类推。
分类则是一个标准的问题,在数据挖掘在电子商贸的应用-原则下,适当的方法[随机森林,支持向量机(支持向量机) ,后勤拉索等]有赖于敏锐地在该网站上,该类型的广告都是可以收集到的资料。,该推荐系统已进入先前购买和书籍进行视察。 这是一个更丰富的信息来源,过可以接入(他们只知道这个词,有人期待在这次会议上,除非他们有库克-网页) 。一些企业获得更多的信息,从数据仓库中,如作为choicepoint公司,这使得他们的专家来建立高度个性化分类规则。
2、通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请深入分析并给出实例,切忌泛泛而谈)。
随着网络技术和数据库技术的成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保
显示全部