文档详情

网络大数据应用提出的挑战性问题-中国科学院计算技术研究所.PDF

发布:2018-10-11约2.14万字共52页下载文档
文本预览下载声明
INSTITUTE OF COMPUTING TECHNOLOGY 网络大数据应用提出的 挑战性问题 李国杰 中国科学院计算技术研究所 2012.5.22 ,香山科学会议 1 网络大数据的广泛应用 2 信息社会的发展变化  60年前, 数字计算机使得信息可读;20年前,Internet使得 信息可获得;10年前,搜索引擎爬虫将互联网变成一个数 据库;现在,Google 及类似公司处理海量语料库如同一个 人类社会实验室。  数据量的指数级增长不但改变了人们的生活方式、企业的 运营模式,而且改变了科研范式。  过去几十年,我们经常讲发展信息科学技术和产业,但主 要的工作是电子化和数字化。现在,数据为王的大数据时 代已经到来,我们需要完成观念上的重大转变:将关注的 重点真正落在数据(信息)上,计算机行业要转变为真正 的信息行业。计算机要从追求计算速度转变为大数据处理 能力,软件要从编程为主转变为数据优先。 3 什么是大数据?  大数据是指无法在一定时间内用常规软件工具对其内容进行 抓取、管理和处理的数据集合(维基百科定义)  大数据 = “海量数据”+ “复杂类型的数据”  大数据的特性 (Volume,Variety,Velocity ) – 数据量大:PB、TB 、EB、ZB级别的数据量 – 种类多:包括文档、视频、图片、音频、数据库、层次状数据等 – 速度快:数据生产速度很快;对数据处理和I/O速度很快  涉及多个领域 – 包括天文、气象、基因、医学、经济、物理、互联网等 – 本次会议重点讨论与人类社会活动有关的网络数据 4 目前大数据的规模  IDC公司发布的数字宇宙研究报告称:全球信息总量每两 年就会增长一倍,2011年全球被创建和被复制的数据总量 为1.8ZB (1021 ),其中75%来自于个人。  IDC认为,到下一个十年(2020年),全球所有IT部门拥有服 务器的总量将会比现在多出10倍,所管理的数据将会比现 在多出50倍。预计到2020年,全球将总共拥有35ZB的数据 量  2011年企业创造、采集、管理和储存信息的成本已经下 降到2005年的1/6,而同期企业关于数据的总投资自2005 年以来却反而上升了50%。  数据成本的下降助推了数据量的增长,而新的数据源和 数据采集技术的出现则大大增加了未来数据的类型,数据 类型的增加导致现有数据空间维度增加,极大地增加了未 来大数据的复杂度。 5 大数据总量增长态势 (数据摩尔定律:两年翻一番) 6 大数据公司的现状  Google 公司通过大规模集群和MapReduce 软件,每天处理 超过20PB 的数据,每个月处理的数据量超过400PB 。  百度的数据量:数百PB,每天大约要处理几十PB数据,
显示全部
相似文档