mapreduce海量数据并行处理总结.pdf
文本预览下载声明
MapReduce 海量数据并行处理
复习大纲
Ch. 1. 并行计算技术简介
1.为什么需要并行计算?
提高计算机性能有哪些基本技术手段
提高 字长 ,流水线 微体系结构 技术,提高 集成度 ,提升 主频
迫切需要发展并行计算技术的主要原因
1)单处理器性能提升达到极限
2)爆炸性 增长的 大规模数据量
2)超大的计算量 / 计算复杂度
2. 并行计算技术的分类
有哪些主要的 并行计算分类方法 ?
1)按数据和指令处理结构:弗林 (Flynn) 分类
2)按并行类型
3)按存储访问构架
4)按系统类型
5)按计算特征
6)按并行程序设计模型 /方法
1)按数据和指令处理结构:弗林 (Flynn) 分类
SISD :单指令单数据流
传统的单处理器串行处理
SIMD : 单指令多数据流
向量机,信号处理系统
MISD : 多指令单数据流
很少使用
MIMD :多指令多数据流
最常用, TOP500 高性能计算机
基本都属于 MIMD 类型
2)按并行类型分类
位级并行( Bit-Level Parallelism )
指令级并行( ILP :Instruction-Level Parallelism )
线程级并行( Thread-Level Parallelism )
数据级并行:一个大的数据块划分为小块,分别由不同的处理器 /线程处理
任务级并行:一个大的计算任务划分为子任务分别由不同的处理器 /线程来处理
3)按存储访问结构分类
A. 共享内存( Shared Memory)
所有处理器通过总线共享内存
多核处理器, SMP ……
也称为 UMA 结构 (Uniform Memory Access)
B. 分布共享存储体系结构
各个处理器有本地存储器
同时再共享一个全局的存储器
C. 分布式内存( Distributed Memory)
各个处理器使用本地独立的存储器
B 和 C 也统称为 NUMA 结构
(Non-Uniform Memory Access)
4)按系统类型分类
多核 / 众核并行计算系统 MC(Multicore/Manycore) 或 Chip-level multiprocessing, CMP
对称多处理系统 SMP(Symmetric Multiprocessing)
多个相同类型处理器 通过总线连接并 共享存储器
大规模并行处理 MPP(Massive Parallel Processing)
专用内联网 连接一组 处理器 形成的一个计算系统
集群( Cluster )
网络连接的一组 商品计算机 构成的计算系统
网格( Grid )
用网络连接远距离分布的一组 异构计算机 构成的计算系统
5)按并行程序设计模型 /方法分类
共享内存变量 (Shared Memory Variables)
消息传递方式 (Message Passing)
MapReduce 方式
3. 并行计算的主要技术问题
并行计算有哪些方面的主要技术问题?
多核 /多处理器 网络 互连 结构技术
存储访问 体系结构
分布式数据 与
显示全部