大数据挖掘的粒计算理论及方法.PDF
文本预览下载声明
中国科学: 信息科学 2015 年 第45 卷 第11 期: 1355–1369
评 述
大数据挖掘的粒计算理论与方法
梁吉业 钱宇华 李德玉 胡清华
山西大学计算智能与中文信息处理教育部重点实验室, 太原 030006
山西大学计算机与信息技术学院, 太原 030006
天津大学计算机科学与技术学院, 天津 300072
* 通信作者. E-mail: ljy@sxu.edu.cn
收稿日期: 2015–05–07; 接受日期: 2015–06–08; 网络出版日期: 2015–09–18
国家自然科学基金(批准号: U1435212,、国家重点基础研究发展计划 (973 计划) (批准号: 2013CB329404)
和教育部新世纪人才支持计划 (批准号: NCET-12-1031) 资助项目
摘要 大数据往往呈现出大规模性、多模态性以及快速增长性等特征. 粒计算是智能信息处理领域
中大规模复杂问题求解的有效范式. 从推动大数据挖掘研究角度, 本文首先概要地讨论了大数据的
特征对可计算性、有效性与高效性提出的3 大挑战; 其次, 结合粒计算的思维模式特点, 概述了已有
研究成果, 分析论述了以粒计算应对大数据挖掘挑战的可行性, 认为粒计算有望为大数据挖掘提供
一条极具前途的崭新途径; 最后, 对大数据挖掘的粒计算理论与方法中的若干科学问题进行了梳理
与展望, 以期抛引这一领域的学术思考与研究工作.
关键词 大数据 数据挖掘 模式发现 粒计算 信息粒化 多粒度
引言
根据维基百科的定义 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和
处理的数据集合 大数据 海量数据 复杂类型的数据 大数据通常来源于以互联网为载体的虚拟
社会系统 或者来源于复杂的工业控制系统、物联网系统、经济与金融系统 现实社会的各种管理与
监控系统 以及诸如空间探测、大气与地球科学、生物信息学等科学研究领域 年 公司
发布的《数字宇宙研究报告》称 全球信息总量每两年就会增长一倍 年全球被创建和被复制的
数据总量为 预计到 年 全球将总共拥有 的数据量 大数据在现代信息社会中的数
据资源主体地位已成为学术界与企业界的共识 由于对经济活动与社会发展具有可预见的重要推动
作用 大数据已经进入了世界主要经济体的战略研究计划 正如美国政府启动的
计划指出的 将大力推进大数据的收集、访问、组织和开发利用等相关技
术的发展 提高从海量复杂的数据中提炼信息和获取知识的能力与水平 从大数据中进行数据挖掘
与知识发现是大数据应用的战略问题之一
引用格式 梁吉业 钱宇华 李德玉 等 大数据挖掘的粒计算理论与方法 中国科学 信息科学
梁吉业等: 大数据挖掘的粒计算理论与方法
大数据挖掘面临的挑战
年 出版的专辑 从互联网技术、网络经济学、超级计算、环境科学和生物
医药等多个方面介绍了大数据带来的挑战 年 月杂志刊发了海量数据处理专题 指
出 倘若能够更有效地组织和利用这些数据 人们将得到更多的机会发挥科学技术对社会发展的巨大
推动作用
大数据的特征常被总结为 即 体量浩大、 模态繁多、 快速增
长、 价值巨大但密度很低 其中 价值巨大但密度很低 从大数据的利用潜力和当前分析
与处理的技术局限性角度概括了大数据的特征 是指大数据的价值虽高 但利用密度很低 本文重点
针对大数据的外在形态特征 即大数据的规模海量性、多模态性以及快速增长性等对传统的数据挖掘
理论、方法与技术在可计算性、有效性与时效性等方面提出的严峻挑战进行研究 而为应对这些挑战
所涌现的新的计算理论、方法与技术将有效推动大数据挖掘的发展与应用
大规模性
显示全部