文档详情

计算机系统结构8.ppt

发布:2017-05-18约7.23千字共50页下载文档
文本预览下载声明
并行性的两个方面: (1)同时性并行Simultaneity:两个或两个以上事件在同一时刻发生。 (2)并发性并行Concurrency:两个或两个以上事件在同一时间间隔内发生。 1. 并行处理机的定义 在同一个控制部件CU控制下,按照一定方式互连的多个处理部件PU对各自的数据完成同一条指令规定的操作。从CU看,指令是串行执行的,从PU看,数据是并行处理的。 3. 并行处理机的操作模型 M=(N,C,I,M,R) 其中: 一台并行处理机由五个部分组成: 多个处理单元PE; 多个存储器模块M; 一个控制器CU; 一个互连网络ICN; 一台输入输出处理机IOP。 主要特点如下: 1. 速度快,而且潜力大 2. 模块性好,生产和维护方便 3. 可靠性高,容易实现容错和重构 4. 效率低 5. 潜力大 主要依靠增加PE个数,与流水线处理机主要依靠缩短时钟周期相比,其提高速度的潜力要大得多。 6. 依赖于互连网络和并行算法 互连网络决定了PE之间的连接模式,也决定了并行处理机能够适应的算法。 7. 需要有一台高性能的标量处理机 如果一台机器的向量处理速度极高,但标量处理速度只是每秒一百万次,那么对于标量运算占10%的题目来说,总的有效速度就不过是每秒一千万次。 IlliacIV由三大部分组成 IlliacIV处理机阵列: 8×8 PE、PEM和互连网络; 阵列控制器CU; 输入输出处理机IOP:一台标准的 B6700计算机。 1. 阵列控制器 阵列控制器CU实际上是一台小型计算机。 对阵列处理单元实行控制和完成标量操作。 标量操作与各PE的数组操作可以重叠执行。 控制器的功能有以下五个方面: (1)对指令进行译码,并执行标量指令; (2)向各PE发出执行数组操作指令的控制信号; (3)产生并向所有处理单元广播公共的地址; (4)产生并向所有处理单元广播公共的数据; (5)接收和处理PE、I/O操作以及B6700产生的陷阱中断信号。 2. 输入输出系统 IlliacIV的输入输出系统包括: 磁盘文件系统DFS, I/O分系统, 一台B6700处理机组成。 I/O分系统由三个部分组成: 输入输出开关IOS, 控制描述字控制器CDC, 输入输出缓冲存储器BIOM。 3. IlliacIV处理阵列 IlliacIV处理阵列由8?8=64个PU组成。每个PU由处理部件PE和它的局部存储器PEM组成。 每一个PUi只和它的东、西、南、北四个近邻: PUi+1 mod 64、PUi-1 mod 64、PUi+8 mod 64、PUi-8 mod 64直接连接。 南北方向同一列PU连成一个环, 东西方向构成一个闭合螺线。 闭合螺线网络直径为7步, 环形网格的直径为8步。 例如:从PU0到PU36,采用环行网格必须8步: PU0?PU1?PU2?PU3?PU4?PU12?PU20?PU28?PU36 或 PU0?PU8?PU16?PU24?PU32?PU33?PU34?PU35?PU36 或 … 如果采用闭合螺旋线,只需要7步: PU0?PU63?PU62?PU61?PU60?PU52?PU44?PU36 或 PU0?PU63?PU55?PU47?PU39?PU38?PU37?PU36 或 …… 对于n×n个单元的阵列,网络直径为n-1。 二维闭合螺旋线网格网 结点度为4,网络直径为n-1。 5. 并行算法举例 有限差分方法是一种通用和有效方法: 把连续方程变换成离散形式。二阶偏导数表示为差分形式: 并代入原方程,则可得有限差分计算公式: 其中:(x, y)为平面直角坐标, h为网格间距。 IlliacIV的阵列结构特别适合计算这种在网格上定义的有限差分函数。 把内部网格点分配给各个处理单元,计算过程可以并行完成。 运算速度的提高可以与处理机数目成正比。 (3) 矩阵乘 矩阵乘是典型的并行程序,非常适合在SIMD并行处理机上运行。 例如:A、B、C均为8×8的二维矩阵,则C=A×B的计算公式为: 在串行机上要用一个三重循环程序,乘
显示全部
相似文档