大数据技术概论第一节课.pdf
文本预览下载声明
大数据技术概论
中国科学院大学工程学院
2015年秋季学期
课程简介
• 课程目的:随着数据的爆炸性增长 ,大数据管理
与分析已经成为业界十分关心的话题。本课程首
先阐述大数据的概念 、 特点及面临挑战 ,开源
Hadoop 技术体系的原理、架构和实现,然后介绍
大数据解决方案以及实践
参考资料
• 课程用书:
• 《Hadoop权威指南》 ,Tom White
• 参考资料
– Mining of Massive Datasets,Anand Rajaraman
• Hadoop In Action, Chuck Lam, Manning
• Data-Intensive Text Processing with MapReduce,
Jimmy Lin and Chris Dyer
(/~jimmylin/MapReduce -
book -final.pdf)
前期准备
• 理论
–计算机原理
–TCP/IP 网络原理
–数据结构
• 实践
–Java 编程
–Linux 系统操作
提纲
• 什么是大数据
• 大数据带来的技术挑战
• Google 的案例
• 课程设置
大数据是目前产业界和学术界的热点
科学就是数据, 数据就是石油 大数据是下一个
数据就是科学。 Intel-inside
大数据的定义
• 维基(Wiki )百科的定义
– Big data is a collection of data sets so large and complex that it
becomes difficult to process using on-hand database management
tools
– 规模庞大,结构复杂,难以通过现有IT技术与工具处理的数
据集
• IDC 的定义
– Big data technologies describe a new generation of
technologies and architectures, designed to economically extract
value from very large volumes of a wide variety of data, by
enabling high-velocity capture,discovery, and/or analysis.
– 新一代的技术和架构,通过高速的数据获取、发现和分析技
术,以经济的方式从各种超大规模的数据中提取价值
大数据的特征:4V
• Volume :规模大
• 从PB 级到ZB级
• 1 ZB ~ 106* PB
• Variety :多样化
• 结构化、非结构化
• 文本、图像、视频等
• Velocity :变化快
• 批处理/ 离线数据、流/实时/在线数据等
• Value :价值大/密度低
• 噪音和无用信息很多
大数据的特征-Volume
•全球IP网一分钟传送639TB
•发出2亿邮件
显示全部