数据挖掘概念与技术通用课件中文版英文版都有chapter1.pptx
数据挖掘:概念与技术
第1版或第2版JiaweiHanandMichelineKamber著MonrganKaufmannPublishersInc.范明孟小峰等译机械工业出版社
07四月2025数据挖掘:概念与技术2
07四月2025数据挖掘:概念与技术3
07四月2025数据挖掘:概念与技术4第一章引论动机:为什么要数据挖掘?什么是数据挖掘?数据挖掘:在什么数据上进行?数据挖掘功能所有的模式都是有趣的吗?数据挖掘系统分类数据挖掘的主要问题
07四月2025数据挖掘:概念与技术51.1为什么要数据挖掘数据爆炸问题自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库,数据仓库和其他信息存储中。我们正被数据淹没,但却缺乏知识。难以将数据转化成信息。
07四月2025数据挖掘:概念与技术6解决办法:数据仓库与数据挖掘。数据仓库与联机分析处理(OLAP)传统数据库→数据仓库OLTP→OLAP从大型数据库的数据中提取有趣的知识(规则,规律性,模式,限制等)。
07四月2025数据挖掘:概念与技术7数据处理技术的演进1960s:数据收集,数据库创建,IMS和网状DBMS1970s:关系数据库模型,关系DBMS实现1980s:RDBMS,先进的数据模型(扩充关系的,OO,演绎的等)和面向应用的DBMS(空间的,科学的,工程的等)1990s—2000s:数据挖掘和数据仓库,多媒体数据库,和Web数据库
07四月2025数据挖掘:概念与技术8数据库技术的演化
07四月2025数据挖掘:概念与技术91.2什么是数据挖掘?数据挖掘(数据库中知识发现):从大型数据库中提取有趣的(非平凡的,蕴涵的,先前未知的并且是潜在有用的)信息或模式。其他叫法和“insidestories”:数据挖掘:用词不当?数据库中知识发现(挖掘)(Knowledgediscoveryindatabases,KDD),知识提取(knowledgeextraction),数据/模式分析(data/patternanalysis),数据考古(dataarcheology),数据捕捞(datadredging),信息收获(informationharvesting),商务智能(businessintelligence),等.什么不是数据挖掘?(演绎)查询处理.专家系统或小型机器学习(ML)/统计程序
07四月2025数据挖掘:概念与技术101.2.1数据挖掘可能的应用数据库分析和决策支持市场分析和管理针对销售(targetmarketing),顾客关系管理,购物篮分析,交叉销售(crossselling),市场分割(marketsegmentation)风险分析与管理预测,顾客关系,改进保险,质量控制,竞争能力分析欺骗检测与管理其他应用文本挖掘(新闻组,email,文档资料)流数据挖掘(Streamdatamining)Web挖掘.DNA数据分析
07四月2025数据挖掘:概念与技术111.市场分析与管理用于分析的数据源在哪?信用卡交易,会员卡,打折优惠卷,顾客投诉电话,(公共)生活时尚研究针对销售(Targetmarketing)找出顾客群,他们具有相同特征:兴趣,收入水平,消费习惯,等.确定顾客随时间变化的购买模式个人帐号到联合帐号的转变:结婚,等.交叉销售分析(Cross-marketanalysis)产品销售之间的关联/相关基于关联信息的预测
07四月2025数据挖掘:概念与技术12顾客分类(Customerprofiling)数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)识别顾客需求对不同的顾客识别最好的产品使用预测发现什么因素影响新顾客提供汇总信息各种多维汇总报告统计的汇总信息(数据的中心趋势和方差)
07四月2025数据挖掘:概念与技术132.风险分析与管理财经规划和资产评估现金流分析和预测临时提出的资产评估交叉组合(cross-sectional)和时间序列分析(金融比率(financial-ratio),趋势分析,等.)资源规划:资源与开销的汇总与比较竞争:管理竞争者和市场指导对顾客分类和基于类的定价在高度竞争的市场调整价格策略
07四月2025数据挖掘:概念与技术143.欺骗检测和管理应用广泛用于健康照料,零售,信用卡服务,电讯(电话卡欺骗),等.方法使用历史数据建立欺骗行为模型,使用数据挖掘帮助识别类似的实例示