高性能计算机系统管理技术的研究.doc
文本预览下载声明
高性能计算机系统管理技术的研究
摘要:高性能计算是气象业务及科研应用的重要的基础平台,东北区域气象中心高性能计算能力迅速增强,业务及科研模式多种多样,用户越来越多,尤其是业务气象模式精度提高以后,对系统资源需求加大。这给高性能计算机管理以及业务应用管理提出了更高的要求。以向用户提供更好的计算资源和支撑服务为出发点,介绍了高性能计算机运行管理、用户及模式管理的技术手段,有助于减少管理和维护成本,更好的发挥计算资源的应用效益。
关键词:高性能计算机;系统管理 ;资源;应用;模式
中图分类号:TP315 文献标识码:A 文章编号:1009-3044(2015)30-0186-02
Research on High Performance Computer System Management Technology
LIU Jin-xia1, LI Jing1, LUAN Yong-ming1,WANG Hui-yu,ZHAO Wei1,ZHAO Miao2
(1.Liaoning Provincial Meteorological Information Center, Shenyang 110166,China;2.Liaoning Provincial Meteorological Bureau,Shenyang 110001,China)
Abstract: High performance computing is an important basic platform for meteorological service and scientific research. The high performance computing power of northeast area meteorological center is rapidly enhanced, and the business and scientific research mode is more and more, and the user is more and more, especially in the business meteorological model. This puts forward higher requirements for high performance computer management and business application management. In order to provide better computing resources and support services as a starting point, it introduces the technical methods of high performance computer operation management, users and management. It helps to reduce the cost of management and maintenance.
Key words: high performance computer;system management;resource;applicaton;model
1 概述
高性能计算机是气象业务及科研应用的重要的基础平台,高性能计算机技术在气象海量资料处理、科学计算、产品应用等方面发挥着重要的支撑作用。 东北区域气象中心目前拥有IBM Cluster 1600 、IBM IBM Flex System P460 Cluster系统,计算能力迅速增强,依托于该高性能计算平台,东北区域中尺度数值预报系统,台风模式HWRF、东北区域空气质量模式预报系统CMAQ,天气数值模式预报检验等业务及科研应用顺利开展。业务及科研模式多种多样,用户越来越多,尤其是业务气象模式精度提高以后,对系统资源需求加大。这给高性能计算机管理以及业务应用管理提出了更高的要求。高性能计算机系统管理者必须采取一定的技术手段确保系统稳定运行,资源有效利用。
2 计算机运行监视
高性能计算机采取集群架构,由一组相互独立的计算机利用高速通信网络组成一个单一的计算机系统,并以单一系统的模式加以管理。集群内包括小型机、服务器、存储、网络等设备近百台,每天到机房检查硬件报警信息是硬件检查的常用方法。然而,在例行检查之后,无法预测硬件下一次报警的时间,也很难保证硬件总是不出故障。通过一些集群管理命令和单机操作系统命令,可以读取到一些有用的信息,通过分析这些信息判断出硬盘、内存、cpu等部件以及各个节点的运行状态,通过运行监视
显示全部