曙光3000超级服务器.ppt
文本预览下载声明
曙光3000超级服务器 培训讲义 曙光3000的硬件系统 节点分布 节点功能 系统控制台 主服务节点 从服务节点 计算节点 登录节点 I/O节点 曙光3000的硬件系统 网络 内部网 外部网 系统网 串口网 cu -l /dev/tty1 外设:盘阵、内置控制台、磁带机 硬件监测系统 曙光3000的硬件系统 曙光3000的软件系统 操作系统 编译器 全局用户管理 全局文件系统 并行编程环境 管理软件 工具 全局用户管理 全局用户 如何建立全局用户 在server0建一个用户 指定$HOME /var/yp/make .rhosts, .profile 或 .cshrc 全局文件系统 NFS文件系统 建立NFS文件系统 在选定节点上建jfs文件系统 将该文件系统输出 在客户机上mount 曙光3000上的全局文件系统 /public0(在server0 RAID) /public1(在server1 RAID) 并行编程环境 BCL通信管理软件 提供系统网的驱动程序和基本通讯库 PVM 为曙光3000优化的PVM通信库 MPI 为曙光3000优化的MPI通信库 BCL通信管理软件 加载与卸载 startpmi [节点物理节点号1]....[节点物理节点号N] stoppmi [节点物理节点号1]....[节点物理节点号N] BCL通信管理软件 获取硬件信息 cardinfo, imr, isr 获取软件信息 sysinfo 获取状态信息 mcpinfo, minfo 监控状态信息 gr/grx, setgr, resetgr 监控运行状态 pausemcp, resumemcp 可视化监控平台 myri 并行编程环境 pvm提交作业 pvmrun -sz 20 -pl p1 程序名 MPI提交作业 mpirun -sz 20 -pl p1 程序名 曙光3000超级服务器管理软件 DSH:分布式shell 资源管理软件RMS 作业管理软件JOSS 系统管理软件CSMS 配置管理软件 硬件监控管理软件 曙光3000超级服务器管理软件 管理软件的起动顺序 BCL RMS JOSS 资源管理软件RMS RMS管理 节点 节点池 通信端口 负责加载作业 RMS的组成 系统配置文件 RMD CSD 资源管理软件RMS 节点 /cluster/config/node.conf) xy坐标 主机名hostname 第一节点名(内部网) 第二节点名(外部网) 第三节点名(系统网) 节点类型 节点的CPU个数 资源管理软件RMS pool 一个或多个节点组成的节点集 名字唯一 pool之间不重叠 必须指定pool pool的用户和用户组 资源管理软件RMS 并行任务 任务的定义 任务大小 一个pool可同时创建多个任务 pool的重叠度 一个任务不可跨pool 资源管理软件RMS 任务进程 区分同一任务的不同进程 节点号和进程类型 资源管理软件RMS 控制进程 每个任务只有一个控制进程 一个控制进程只能控制一个任务 终止任务 Ctrl+C或kill killtask 资源管理软件RMS 进程的顺序号 进程的顺序号是任务内每个进程的唯一标识符 任务创建和加载 创建:在节点池中申请节点资源 加载:在申请的节点上运行任务进程 资源状态与任务管理 可用ps, kill, nice等操作任务进程 资源管理命令的作用 资源管理软件RMS(常用命令) startrmd startcsd pingrmd/ping_rmd pingcsd killrmd/stop_rmd killcsd startrms setstandalone statrms pingrms stoprms 资源管理软件RMS(系统管理命令) checkconf getall teskclean nodeclean statrmd statcsd pausermd contrmd stoprmd stopcsd rpterrnode rptaddnode wherermd startslave updateshm clearcsd 资源管理软件RMS(常用命
显示全部