网络大数据应用提出的挑战性问题-中国科学院计算技术研究所.PDF
文本预览下载声明
INSTITUTE OF COMPUTING
TECHNOLOGY
网络大数据应用提出的
挑战性问题
李国杰
中国科学院计算技术研究所
2012.5.22 ,香山科学会议
1
网络大数据的广泛应用
2
信息社会的发展变化
60年前, 数字计算机使得信息可读;20年前,Internet使得
信息可获得;10年前,搜索引擎爬虫将互联网变成一个数
据库;现在,Google 及类似公司处理海量语料库如同一个
人类社会实验室。
数据量的指数级增长不但改变了人们的生活方式、企业的
运营模式,而且改变了科研范式。
过去几十年,我们经常讲发展信息科学技术和产业,但主
要的工作是电子化和数字化。现在,数据为王的大数据时
代已经到来,我们需要完成观念上的重大转变:将关注的
重点真正落在数据(信息)上,计算机行业要转变为真正
的信息行业。计算机要从追求计算速度转变为大数据处理
能力,软件要从编程为主转变为数据优先。
3
什么是大数据?
大数据是指无法在一定时间内用常规软件工具对其内容进行
抓取、管理和处理的数据集合(维基百科定义)
大数据 = “海量数据”+ “复杂类型的数据”
大数据的特性 (Volume,Variety,Velocity )
– 数据量大:PB、TB 、EB、ZB级别的数据量
– 种类多:包括文档、视频、图片、音频、数据库、层次状数据等
– 速度快:数据生产速度很快;对数据处理和I/O速度很快
涉及多个领域
– 包括天文、气象、基因、医学、经济、物理、互联网等
– 本次会议重点讨论与人类社会活动有关的网络数据
4
目前大数据的规模
IDC公司发布的数字宇宙研究报告称:全球信息总量每两
年就会增长一倍,2011年全球被创建和被复制的数据总量
为1.8ZB (1021 ),其中75%来自于个人。
IDC认为,到下一个十年(2020年),全球所有IT部门拥有服
务器的总量将会比现在多出10倍,所管理的数据将会比现
在多出50倍。预计到2020年,全球将总共拥有35ZB的数据
量
2011年企业创造、采集、管理和储存信息的成本已经下
降到2005年的1/6,而同期企业关于数据的总投资自2005
年以来却反而上升了50%。
数据成本的下降助推了数据量的增长,而新的数据源和
数据采集技术的出现则大大增加了未来数据的类型,数据
类型的增加导致现有数据空间维度增加,极大地增加了未
来大数据的复杂度。
5
大数据总量增长态势
(数据摩尔定律:两年翻一番)
6
大数据公司的现状
Google 公司通过大规模集群和MapReduce 软件,每天处理
超过20PB 的数据,每个月处理的数据量超过400PB 。
百度的数据量:数百PB,每天大约要处理几十PB数据,
显示全部