2016信息管理MBA课程三——数据挖掘与商务智能教程.pptx
文本预览下载声明
数据挖掘与商业智能;数据挖掘与商业智能;【引导案例1】;【引导案例2】;措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常的人员加强盘查。
结果:收效甚微,发案率依然居高不下。
系统中保存了多年的案件和案犯的卷宗信息,通过利用数据挖掘等分析技术,揭示出最近这段时间的抢劫犯具有一些非常显著的特征:
没有固定住所,无家可归,而且也没有稳定的工作。另外,在很多抢劫案发生前,这些罪犯都吸食了毒品。
新措施:加强对无业人员和有吸毒前科人员的管理,并通过社会福利机构对他们实施救助;加强对毒品交易易发场所的严打和治理,从源头上掐断毒品的供应。
结果:抢劫案的发案率迅速降低。;1-6;1-7;1-8;数据挖掘与商业智能;数据挖掘的社会需求;数据挖掘的社会需求;什么是数据挖掘?
;什么是数据挖掘?
;
数据挖掘(Data mining),也称为数据库知识发现(Knowledge-Discovery in Databases,KDD),或认为是KDD中的一个基本步骤。
;数据挖掘视为知识发现过程的基础步骤;数据库、数据仓库、或其它信息库:数据挖掘的数据源,需要在其上进行数据清理和集成
数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据
知识库:存储面向领域的知识,用于指导搜索,或评估结果模式的兴趣度
数据挖掘引擎:数据挖掘系统核心部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析等;模式评估模块:
使用兴趣度度量,与挖掘模块交互,以便将搜索聚焦在有趣的模式上
对于有效的数据挖掘,建议尽可能地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上;图形用户界面:
该模块在用户和挖掘系统之间通讯
允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。
允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化;数据挖掘与商业智能; 文件组织术语和概念; 传统文件环境带来的问题; 数据库模型;关系数据库:是表的集合,每个表都赋予一个唯一的名字(关键字段)。每个表包含一组属性,并通常存放大量元组(记录或行)。关系中的每个组元代表一个被唯一关键字标识的对象,并被一组属性值描述。
;数据仓库,(Data Warehouse)。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。 为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。
是商业智能(BI, Business Intelligence )下的其中一种技术。;ETL技术—多维数据分析;26;27;28;29;30;31;32;联机操作数据库系统的主要任务是执行联机事务和查询处理。
——联机事务处理( Online Transaction Processing , OLTP)系统
涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、记账等。
数据仓库系统在数据分析和决策方面为用户提供服务。
——联机分析处理( Online Analytical Processing ,OLAP)系统;联机事务处理与联机分析处理 ;时间序列数据库
文本数据库
多媒体数据库;时间序列数据库是指有放随时间变化的值或时间组成的数据库。很多应用中时序数据库很普遍,如股票市场的每日波动。
;文本数据库是包含对象文字描述的数据库。
在现实世界中,可获取的大部分信息是存储在文本数据库(或文档数据库)中的。
数据源:新闻文章、研究论文、在线用户生成内容、电子邮件和Web 页面。
文档数据库中存储最多的数据是半结构化数据。
;【案例2】;【案例2】;多媒体数据库是指存储和管理大量多媒体对象的数据库,如音频数据、图像数据和视频数据。
多媒体数据库用于基于内容的提取、声音、图片和视频搜索等。
多媒体数据库必须支持大对象,因为象视频这样的数据对象可能需要数十亿字节的存储。
还需要特殊的存储和检索技术,因为视频和音频数据需要以稳定的、预先确定的速率实时检索,防止图象或声音间断和系统缓冲区溢出。这种数据称为连续媒体数据。
;数据挖掘与商业智能;Debt10% of Income;分类与预测;数据分类:两步过程;第一步:建立模型;第二步:用模型进行分类;用判定树归纳分类;判定归纳树算法;判定归纳树举例;其他分类方法;什么是预测?;回归方法;预测;预测;聚类分析;应用聚类分析的例子;聚类方法性能评价;评价聚类质量;计算对象之间的相异度;计算对象之间的相异度;聚类分析;;;;;分类与预测(回归分析);数据挖掘与商业智能;数据挖掘软件的发展;72;73;74;75;76;
显示全部