文档详情

mapreduce海量数据并行处理总结.pdf

发布:2021-03-18约3.93万字共70页下载文档
文本预览下载声明
MapReduce 海量数据并行处理 复习大纲 Ch. 1. 并行计算技术简介 1.为什么需要并行计算? 提高计算机性能有哪些基本技术手段 提高 字长 ,流水线 微体系结构 技术,提高 集成度 ,提升 主频 迫切需要发展并行计算技术的主要原因 1)单处理器性能提升达到极限 2)爆炸性 增长的 大规模数据量 2)超大的计算量 / 计算复杂度 2. 并行计算技术的分类 有哪些主要的 并行计算分类方法 ? 1)按数据和指令处理结构:弗林 (Flynn) 分类 2)按并行类型 3)按存储访问构架 4)按系统类型 5)按计算特征 6)按并行程序设计模型 /方法 1)按数据和指令处理结构:弗林 (Flynn) 分类 SISD :单指令单数据流 传统的单处理器串行处理 SIMD : 单指令多数据流 向量机,信号处理系统 MISD : 多指令单数据流 很少使用 MIMD :多指令多数据流 最常用, TOP500 高性能计算机 基本都属于 MIMD 类型 2)按并行类型分类 位级并行( Bit-Level Parallelism ) 指令级并行( ILP :Instruction-Level Parallelism ) 线程级并行( Thread-Level Parallelism ) 数据级并行:一个大的数据块划分为小块,分别由不同的处理器 /线程处理 任务级并行:一个大的计算任务划分为子任务分别由不同的处理器 /线程来处理 3)按存储访问结构分类 A. 共享内存( Shared Memory) 所有处理器通过总线共享内存 多核处理器, SMP …… 也称为 UMA 结构 (Uniform Memory Access) B. 分布共享存储体系结构 各个处理器有本地存储器 同时再共享一个全局的存储器 C. 分布式内存( Distributed Memory) 各个处理器使用本地独立的存储器 B 和 C 也统称为 NUMA 结构 (Non-Uniform Memory Access) 4)按系统类型分类 多核 / 众核并行计算系统 MC(Multicore/Manycore) 或 Chip-level multiprocessing, CMP 对称多处理系统 SMP(Symmetric Multiprocessing) 多个相同类型处理器 通过总线连接并 共享存储器 大规模并行处理 MPP(Massive Parallel Processing) 专用内联网 连接一组 处理器 形成的一个计算系统 集群( Cluster ) 网络连接的一组 商品计算机 构成的计算系统 网格( Grid ) 用网络连接远距离分布的一组 异构计算机 构成的计算系统 5)按并行程序设计模型 /方法分类 共享内存变量 (Shared Memory Variables) 消息传递方式 (Message Passing) MapReduce 方式 3. 并行计算的主要技术问题 并行计算有哪些方面的主要技术问题? 多核 /多处理器 网络 互连 结构技术 存储访问 体系结构 分布式数据 与
显示全部
相似文档