文档详情

高性能计算习题及答案.doc

发布：2017-03-23约1.46万字共15页下载文档

文本预览下载声明

高性能计算练习题一下哪种编程方式适合在单机内并行？哪种适合在多机间并行？单机：Threading线程、OpenMP；多机：MPI。例题：HPC集群的峰值计算能力：一套配置256个双路X5670处理器计算节点的HPC集群。X5560:2.93GHz Intel XS5670 Westmere六核处理器，目前主流的Intel处理器每时钟周期提供4个双精度浮点计算。峰值计算性能：2.93GHz*4Flops/Hz*6Core*2CPU*256节点=36003.8GFlops。Gflops=10亿次，所以36003Gflops=36.003TFlops=36.003万亿次每秒的峰值性能。 Top500排名的依据是什么？High Performance Linpack(HPL)测试结果目前最流行的GPU开发环境是什么？CUDA 一套配置200TFlops的HPC集群，如果用双路2.93GHz Intel westmere六核处理器X5670来构建，需要用多少个计算节点？计算节点数=200TFlops/(2*2.93GHz*6*4Flops/Hz)=1422 天河1A参与TOP500排名的实测速度是多少，效率是多少？ 2.57PFlops 55% RDMA如何实现？ RDMA(Remote Direct Memory Access)，数据发送接收时，不用将数据拷贝到缓冲区中，而直接将数据发送到对方。绕过了核心，实现了零拷贝。 8、InfiniBand的最低通讯延迟是多少？ 1-1.3usec MPI end-to-end， 0.9-1us InfiniBand latency for RDMA operations 9、GPU-Direct如何加速应用程序运行速度？通过除去InfiniBand和GPU之间的内存拷贝来加速程序运行。 ?GPUs provide cost effective way for building supercomputers 【GPUs提供高效方式建立超级计算机】 ?Dense packaging of compute flops with high memory bandwidth 【使用高端内存带宽的密级封装浮点计算】 10、网络设备的哪个特性决定了MPI_Allreduce性能？集群大小，Time for MPI_Allreduce keeps increasing as cluster size scales，也就是说集群的规模决定了MPI_Allreduce的性能。 11、现排名世界第一的超级计算机的运行速度？K computer: 10PFlops 也就是10千万亿次,93% 12、以下哪些可以算作是嵌入式设备： A 路由器 B机器人 C微波炉 D笔记本电脑 13、选择嵌入式操作系统的头两个因素是： A 成本 B 售后服务 C可获得源代码 D相关社区 E开发工具 14、构建嵌入式Linux的主要挑战是： A 需要广博的知识面 B深度定制的复杂性 C日益增加的维护成本 D稳定性与安全性 E开源项目通常质量低下 15、The Yocto Project的主要目的是： A. 构建一个统一的嵌入式Linux社区 B. 提供高质量的工具帮助你轻松构建嵌入式Linux，从而专注于其上的研究工作 C. 包括一组经过测试的metadata，指导最核心的一些开源项目的交叉编译过程 D. 提供灵活的扩展接口，可以方便的导入新的项目，或是新的板级支持包(BSP) 16、请描述交叉编译一个开源项目需要完成哪些工作？ Patch-Configure-Compile-Install-Sysroot-Package-Do_rootfs 17. Top500排名的依据是什么？答：High Performance Linpack(HPL)测试结果 18.Write codes to create a thread to compute the sum of the elements of an array. 答：Create a thread to complete the sum of the elements of an array. struct arguments { double *array; int size; double *sum; } int main(int argc, char *argv) { double array[100]; double sum; pthread_t worker_thread; struct arguments *arg; arg = (struct arguments *)calloc(1

显示全部

相似文档