文档详情

《人工智能与数据挖掘教学课件》l.pptx

发布:2025-06-06约8.08千字共10页下载文档
文本预览下载声明

PartIDataMiningFundamentalsChapter1:DataMining:AFirstView

2025/6/4BUPTAIDM2Content1.1WhatisDataMining?Definition1.2WhatcancomputersLearn?1.3IsDataMiningAppropriateforMyProblem?1.4ExpertSystemsorDataMining?1.6WhyNotSimpleSearch?

2025/6/4BUPTAIDM31.1Whatisdatamining:MotivationDataexplosionproblemAutomateddatacollectiontoolsandmaturedatabasetechnologyleadtotremendousamountsofdatastoredindatabases,datawarehousesandotherinformationrepositories.Suchamountofdatabeyondhumanunderstanding.Wearedrowningindata,butstarvingforknowledge!Solution:DatawarehousinganddataminingDatawarehousing:fordatastorageDatamining:forExtractionofinterestingknowledge(rules,regularities,patterns,constraints)fromdatainlargedatabases

1.1DataMiningisaresultofnaturalevolutionofinformationtechnology1960s:Datacollectionanddatabasecreation1970s-early1980s:DatabaseManagementSystemsMid-1980s-present:DatawarehouseDataanalysisandunderstanding(datamining)

DataAnalysis:NewTrendThisisatimethatonemustspeakwithdata.未来属于运算师(SuperCrunchers《超级运算师》,IanAyres,2009):日常决策将变得越来越自动化,人的判断作用将局限于为计算提供数据葡萄酒味道和香味的预测:奥利.阿申费尔特是普林斯顿大学的经济学家,完全不懂葡萄酒的制作,但可以预测波尔多葡萄酒的价格基于天气(炎热、干燥的年份酒会非常好),准确率高于葡萄酒专家本书原计划叫“理论的终结”,后来利用google改书名而不是与出版社编辑讨论,因为发现用此名点击率高63%放贷员曾经收入优厚、职责最大,现在只是呼叫中心的接线员,重复电脑提示的问题,报酬很低

DataAnalysis:NewTrend(cont.)Thisisatimethatonemustspeakwithdata.基因测序和新物种:克雷格.文特尔使用能够分析数据的高速计算机,从给单个生物基因排序,2003年开始给海洋测序,2005年给空气测序。这个过程中发现了数千种以前不知道的细菌和其它生命形式。他对生物学的推进比同辈所有人都大。

在过去,上海通用保修问题分析主要依靠简单的纯手工处理的计算方式,每次只能产生寥寥几篇问题报告。尽管汽车生产量远不如现在大,但这个耗时费力的分析周期却在根本上导致了保修成本居高不下。在非自动操作环境下,从保修索赔出现到找出问题原因平均要花费6~12个月的时间,且在此间往往还需要借助于通用全球的支持,解决问题的整个过程也主要建立在经验分析的基础上。另外,不准确的数据导致上海通用难以准确预测保修成本,从而合理准备下一周期的保修预算,导致大量运营资金被占用、现金流降低。采用SAS的保修分析解决方案后,上海通用的保修分析周期在头6个月里就缩短了70%,有效地降低了保修成本,实现了该系统使用的预期目标。同时,这些显著的改善效果帮助上海通用在短短半年内就收回了保修分析系统所有的软硬件投资,共为公司节省了1,800万人民币的成本。警察地理信息系统

DataMiningDefinitionsTheproce

显示全部
相似文档