高性能计算习题及答案.doc
文本预览下载声明
高性能计算练习题
一下哪种编程方式适合在单机内并行?哪种适合在多机间并行?
单机:Threading线程、OpenMP;多机:MPI。
例题:HPC集群的峰值计算能力:
一套配置256个双路X5670处理器计算节点的HPC集群。X5560:2.93GHz Intel XS5670 Westmere六核处理器,目前主流的Intel处理器每时钟周期提供4个双精度浮点计算。峰值计算性能:2.93GHz*4Flops/Hz*6Core*2CPU*256节点=36003.8GFlops。Gflops=10亿次,所以36003Gflops=36.003TFlops=36.003万亿次每秒的峰值性能。
Top500排名的依据是什么?High Performance Linpack(HPL)测试结果
目前最流行的GPU开发环境是什么?CUDA
一套配置200TFlops的HPC集群,如果用双路2.93GHz Intel westmere六核处理器X5670来构建,需要用多少个计算节点?
计算节点数=200TFlops/(2*2.93GHz*6*4Flops/Hz)=1422
天河1A参与TOP500排名的实测速度是多少,效率是多少?
2.57PFlops 55%
RDMA如何实现?
RDMA(Remote Direct Memory Access),数据发送接收时,不用将数据拷贝到缓冲区中,而直接将数据发送到对方。绕过了核心,实现了零拷贝。
8、InfiniBand的最低通讯延迟是多少?
1-1.3usec MPI end-to-end,
0.9-1us InfiniBand latency for RDMA operations
9、GPU-Direct如何加速应用程序运行速度?
通过除去InfiniBand和GPU之间的内存拷贝来加速程序运行。
?GPUs provide cost effective way for building supercomputers
【GPUs提供高效方式建立超级计算机】
?Dense packaging of compute flops with high memory bandwidth
【使用高端内存带宽的密级封装浮点计算】
10、网络设备的哪个特性决定了MPI_Allreduce性能?集群大小,Time for MPI_Allreduce keeps increasing as cluster size scales,也就是说集群的规模决定了MPI_Allreduce的性能。
11、现排名世界第一的超级计算机的运行速度?K computer: 10PFlops 也就是10千万亿次,93%
12、以下哪些可以算作是嵌入式设备:
A 路由器 B机器人 C微波炉 D笔记本电脑
13、选择嵌入式操作系统的头两个因素是:
A 成本 B 售后服务 C可获得源代码 D相关社区 E开发工具
14、构建嵌入式Linux的主要挑战是:
A 需要广博的知识面 B深度定制的复杂性 C日益增加的维护成本 D稳定性与安全性 E开源项目通常质量低下
15、The Yocto Project的主要目的是:
A. 构建一个统一的嵌入式Linux社区 B. 提供高质量的工具帮助你轻松构建嵌入式Linux, 从而专注于其上的研究工作 C. 包括一组经过测试的metadata,指导最核心的一些开源项目的交叉编译过程 D. 提供灵活的扩展接口,可以方便的导入新的项目, 或是新的板级支持包(BSP)
16、请描述交叉编译一个开源项目需要完成哪些工作?
Patch-Configure-Compile-Install-Sysroot-Package-Do_rootfs
17. Top500排名的依据是什么?
答:High Performance Linpack(HPL)测试结果
18.Write codes to create a thread to compute the sum of the elements of an array.
答:Create a thread to complete the sum of the elements of an array.
struct arguments {
double *array;
int size;
double *sum;
}
int main(int argc, char *argv) {
double array[100];
double sum;
pthread_t worker_thread;
struct arguments *arg;
arg = (struct arguments *)calloc(1
显示全部