大数据时代的数据挖掘.pdf
文本预览下载声明
大数据时代的数据挖掘
大数据是 2012 的时髦词汇,正受到越来越多人的关注和谈论。大数据之所以受到人
们的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会。
大数据时代,数据挖掘是最关键的工作。以下内容供个人学习用,感兴趣的朋友可以
看一下。
智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现,是目前人工智
能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、
先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基
于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析
企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减
少风险,做出正确的决策。
数据挖掘的定义
技术上的定义及含义
数据挖掘( Data Mining )就是从大量的、不完全的、有噪声的、模糊的、随机的实际
应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过
程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户
感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知
识,仅支持特定的发现问题。
与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、
知识发现、数据分析和决策支持等。
何为知识从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规
则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采
矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,
如文本、图形和图像数据;甚至是分布在网 络 上的 异 构 型数据。发现知识的 方法 可以是数
学的,也可以是非数学的;可以是 演绎 的,也可以是归纳的。发现的知识可以 被 用于信息
管理, 查询优 化,决策支持和过程 控制 等, 还 可以用于数据自 身 的维护 。因此 ,数据挖掘
是一 门交叉 学科,它把人们 对数据的应用从 低 层次 的简单查询 ,提 升 到从数据中挖掘知识,
提供决策支持。在这种 需求 牵引 下,汇 聚了 不同领域的研究者, 尤 其是数据库技术、人工
智能技术、数理统计、可视化技术、并 行 计 算 等方 面的学者和工程技术人 员,投身 到数据
挖掘这一 新兴的研究领域,形成 新 的技术热点。
这 里 所说 的知识发现,不是要求发现放之四海 而 皆准的真理,也不是要 去 发现 崭新 的
自然 科学定理和 纯 数学 公 式,更不是 什么 机器定理 证明 。实际上,所有发现的知识 都是相
对 的,是有特定前提和约束 条件 ,面 向特定领域的,同时 还 要能 够易 于 被 用户理解。最好
能用自 然语言 表 达 所发现的结 果 。
商业 角度的定义
数据挖掘是一种 新 的商业信息 处 理技术,其主要特点是 对 商业数据库中的大量业务数
据进行抽 取、 转换 、分析和其 他 模 型化处 理,从中提取 辅助商业决策的关键性数据。
简而言 之,数据挖掘其实是一 类深 层 次 的数据分析 方法 。数据分析本 身已经 有 很多年
的历史 ,只不过在过 去 数据 收集 和分析的目的是用于科学研究, 另外 , 由于当 时计 算能力
的限制 ,对大数据量 进行 分析的 复杂 数据分析 方法 受到 很大 限制 。现在, 由于 各行 业业务
自动化的实现,商业领域 产生了 大量的业务数据,这 些 数据不 再 是为 了分析的目的 而收集
的, 而 是 由于 纯 机会的( Opportunistic )商业运作 而产生 。分析这 些 数据也不 再是 单纯 为
了研究的 需要,更主要
显示全部