hadoop大数据处理讲义-c1. 海量数据处理概论.pdf
文本预览下载声明
海量数据处理中的云计算
C1. 海量数据处理概论
北京邮电大学信息与通信工程学院
刘军 liujun@
2014年春季学期
本节目录
海量数据的定义与特征
海量数据带来的技术挑战
海量数据处理的三大关键问题
海量数据处理的云计算变革
第2页
本节目录
海量数据的定义与特征
海量数据带来的技术挑战
海量数据处理的三大关键问题
海量数据处理的云计算变革
第3页
炙手可热的海量数据
海量数据(Massive Data )= 大数据(Big Data )
当前科技与产业领域的第一热词
Google Trends数据(2004 -2013 )
Gartner调查报告
– 2012年,全球Big Data相关IT投资总额为280亿美元
– 2013年,将达到340亿美元,增长率超过20%。
– 到2015年,将在全球范围内创造440万工作岗位。
第4页
什么是海量数据
数据量超过一定大小,导致常规软件无法在一个可接受的时间范围内
完成对其进行抓取、管理和处理的工作的数据,例如:
– 互联网上的网页数据
– 社交网站上的用户交互数据
– 物联网中产生的活动数据
– 电信网络中的话单数据
海量数据的三大特征(3V ):
型型 高高
类类 非结构化非结构化 实时数据实时数据 时时
– 数据量大小 – 大容量(Volume ) 多多 效效
– 数据类型 – 多类型(Variety )
结构化结构化 历史数据历史数据
– 数据时效性 – 高时效(Velocity )
TBTB ZBZB
大容量大容量
第5页
海量数据特征(1 )– 大容量(Volume )
爆炸的数据世界中每1分钟发生的: GB/TB/PB/EB/ZB/YB
IDC统计 :
Email :2.04亿封
– 2012年全球数据量:2.7ZB
Google :200万次搜索 – 相当于全球70亿人口每人420G
– 比2011年增长48%
Flicker :3125张照片上
显示全部