文档详情

数据挖掘概念与技术第一章.pptx

发布:2025-04-15约7.75千字共10页下载文档
文本预览下载声明

2025/4/14数据挖掘:概念与技术1数据挖掘:概念与技术JiaweiHanandMichelineKamber著MonrganKaufmannPublishersInc.范明孟小峰等译机械工业出版社

第1章引言2025/4/14数据挖掘:概念与技术41英文幻灯片制作:JiaweiHan2中文幻灯片编译:范明

第一章引论2025/4/14数据挖掘:概念与技术501动机:为什么要数据挖掘?02什么是数据挖掘?03数据挖掘:在什么数据上进行?04数据挖掘功能05所有的模式都是有趣的吗?06数据挖掘系统分类07数据挖掘的主要问题

动机:需要是发明之母2025/4/14数据挖掘:概念与技术6数据爆炸问题我们正被数据淹没,但却缺乏知识数据仓库与联机分析处理(OLAP)自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库,数据仓库,和其它信息存储中解决办法:数据仓库与数据挖掘从大型数据库的数据中提取有趣的知识(规则,规律性,模式,限制等)123456

数据处理技术的演进2025/4/14数据挖掘:概念与技术71960s:数据收集,数据库创建,IMS和网状DBMS1970s:关系数据库模型,关系DBMS实现1980s:RDBMS,先进的数据模型(扩充关系的,OO,演绎的,等.)和面向应用的DBMS(空间的,科学的,工程的,等.)1990s—2000s:数据挖掘和数据仓库,多媒体数据库,和Web数据库

什么是数据挖掘?2025/4/14数据挖掘:概念与技术8数据挖掘(数据库中知识发现):从大型数据库中提取有趣的(非平凡的,蕴涵的,先前未知的并且是潜在有用的)信息或模式其它叫法和“insidestories”:数据挖掘:用词不当?数据库中知识发现(挖掘)(Knowledgediscoveryindatabases,KDD),知识提取(knowledgeextraction),数据/模式分析(data/patternanalysis),数据考古(dataarcheology),数据捕捞(datadredging),信息收获(informationharvesting),商务智能(businessintelligence),等.什么不是数据挖掘?(演绎)查询处理.专家系统或小型机器学习(ML)/统计程序

为什么要数据挖掘?—可能的应用数据库分析和决策支持市场分析和管理针对销售(targetmarketing),顾客关系管理,购物篮分析,交叉销售(crossselling),市场分割(marketsegmentation)风险分析与管理预测,顾客关系,改进保险,质量控制,竞争能力分析欺骗检测与管理其它应用文本挖掘(新闻组,email,文档资料)流数据挖掘(Streamdatamining)Web挖掘.DNA数据分析

市场分析与管理(1)2025/4/14数据挖掘:概念与技术10用于分析的数据源在哪?1信用卡交易,会员卡,打折优惠卷,顾客投诉电话,(公共)生活时尚研究2针对销售(Targetmarketing)3找出顾客群,他们具有相同特征:兴趣,收入水平,消费习惯,等.4确定顾客随时间变化的购买模式5个人帐号到联合帐号的转变:结婚,等.6交叉销售分析(Cross-marketanalysis)7产品销售之间的关联/相关8基于关联信息的预测9

市场分析与管理(2)2025/4/14数据挖掘:概念与技术11顾客分类(Customerprofiling)01数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类)02识别顾客需求03对不同的顾客识别最好的产品04使用预测发现什么因素影响新顾客05提供汇总信息06各种多维汇总报告07统计的汇总信息(数据的中心趋势和方差)08

法人分析和风险管理2025/4/14数据挖掘:概念与技术12财经规划和资产评估现金流分析和预测临时提出的资产评估交叉组合(cross-sectional)和时间序列分析(金融比率(financial-ratio),趋势分析,等.)资源规划:资源与开销的汇总与比较竞争:管理竞争者和市场指导对顾客分类和基于类的定价在高度竞争的市场调整价格策略

欺骗检测和管理(1)2025/4/14数据挖掘:概念与技术13应用广泛用于健康照料,零售,信用卡服务,电讯(电话卡欺骗),等.方法使用历史数据建立欺骗行为模型,使用数据挖掘帮助识别类似的实例例汽车保险:检测这样的人,他/她假造事故骗取保险赔偿洗钱:检测可疑的金

显示全部
相似文档