文档详情

海量数据智能处理-数据挖掘.pdf

发布:2018-05-10约2.57万字共56页下载文档
文本预览下载声明
课程讲授介绍 三个部分  数据挖掘介绍  频繁模式分析和关联规则挖掘  流数据挖掘 印鉴 中山大学信息科学与技术学院 2010年7月21 日星期三 1 一、数据挖掘介绍  动机: 为什么要数据挖掘?  什么是数据挖掘?  数据挖掘: 在什么样的数据上挖掘?  数据挖掘功能 2010年7月21 日星期三 2 为什么要数据挖掘?  数据的爆炸性增长: 从TB到PB  数据收集和数据可用性  自动的数据收集工具, 数据库系统, Web, 计算化的社会  丰富数据的主要来源  商业: Web, 电子商务, 事务, 股票, …  科学: 遥感, 生物信息学, 科学仿真, …  社会: 新闻, 数码相机,  我们正淹没在数据中, 但却渴望知识!  ―需要是发明之母‖—数据挖掘— 自动化的大规模数据集的分析 2010年7月21 日星期三 3 什么是数据挖掘?  数据挖掘(从数据中发现知识)  从海量数据中提取感兴趣(重要的, 隐含的, 以前未知的和潜在有 用的)模式或知识  数据挖掘: 用词不当?  其他的名称  数据库中的知识发现(挖掘) (KDD), 知识提取, 数据/模式分析, 数 据考古学, 数据捕捞, 信息收割, 商业智能等.  当心: 所有的都是―数据挖掘”么?  简单的搜索和查询处理  (演绎的) 专家系统 2010年7月21 日星期三 4 数据挖掘: 多种技术的汇合 数据库技术 统计学 机器学习 数据挖掘 可视化 模式识别 其他技术 算法 2010年7月21 日星期三 5 为什么不是传统的数据分析?  庞大的数据  算法必须能够高度可伸缩以便处理TB数量级的数据  高维度的数据  Micro-array 可能有成千上万个维度  数据的高复杂性  数据流和传感器数据  时间序列数据, 时间数据, 序列数据  结构数据, 图, 社会网络和多链接数据  异构数据库和遗产数据库  空间, 时空, 多媒体, 文本和Web 数据  软件程序, 科学仿真  新的和复杂的应用 2010年7月21 日星期三 6 数据
显示全部
相似文档