海量数据智能处理-数据挖掘.pdf
文本预览下载声明
课程讲授介绍
三个部分
数据挖掘介绍
频繁模式分析和关联规则挖掘
流数据挖掘
印鉴
中山大学信息科学与技术学院
2010年7月21 日星期三 1
一、数据挖掘介绍
动机: 为什么要数据挖掘?
什么是数据挖掘?
数据挖掘: 在什么样的数据上挖掘?
数据挖掘功能
2010年7月21 日星期三 2
为什么要数据挖掘?
数据的爆炸性增长: 从TB到PB
数据收集和数据可用性
自动的数据收集工具, 数据库系统, Web, 计算化的社会
丰富数据的主要来源
商业: Web, 电子商务, 事务, 股票, …
科学: 遥感, 生物信息学, 科学仿真, …
社会: 新闻, 数码相机,
我们正淹没在数据中, 但却渴望知识!
―需要是发明之母‖—数据挖掘— 自动化的大规模数据集的分析
2010年7月21 日星期三 3
什么是数据挖掘?
数据挖掘(从数据中发现知识)
从海量数据中提取感兴趣(重要的, 隐含的, 以前未知的和潜在有
用的)模式或知识
数据挖掘: 用词不当?
其他的名称
数据库中的知识发现(挖掘) (KDD), 知识提取, 数据/模式分析, 数
据考古学, 数据捕捞, 信息收割, 商业智能等.
当心: 所有的都是―数据挖掘”么?
简单的搜索和查询处理
(演绎的) 专家系统
2010年7月21 日星期三 4
数据挖掘: 多种技术的汇合
数据库技术 统计学
机器学习 数据挖掘 可视化
模式识别
其他技术
算法
2010年7月21 日星期三 5
为什么不是传统的数据分析?
庞大的数据
算法必须能够高度可伸缩以便处理TB数量级的数据
高维度的数据
Micro-array 可能有成千上万个维度
数据的高复杂性
数据流和传感器数据
时间序列数据, 时间数据, 序列数据
结构数据, 图, 社会网络和多链接数据
异构数据库和遗产数据库
空间, 时空, 多媒体, 文本和Web 数据
软件程序, 科学仿真
新的和复杂的应用
2010年7月21 日星期三 6
数据
显示全部