文档详情

基于Parallel NetCDF的海量时空数据存储研究.pdf

发布:2018-04-12约1.58万字共8页下载文档
文本预览下载声明
· 应用 /APPLICATION · 基于 ParallelNetCDF的海量时空数 据存储研究 何振芳’,张耀南 一,赵国辉 -。 1.中国科学院寒区旱区环境与工程研究所,兰州 730000 2.甘肃省高性能网格计算中心,兰州730000 3.中国科学院超级计算兰州分中心,兰州 730000 摘 要: 随着遥感、无线传感器网络等技术的发展,海量时空数据存储的需求越来越大,如何将长时间序 列时空数据在集群上进行并行存储和处理 已成为科研工作者要解决的课题。本研究深入分析了时 空数据特点及NetCDF文件结构特点,利用ParallelNetCDF函数库,基于集群环境将 GRID数据 并行转换为NetCDF数据。以黑河干流流域月平均温度 GRID数据为例验证并行转换算法的有效 性,并可以扩展到其他时空数据的并行存储。 关键词: 时空数据;并行 I/0;MPI;GRID;NetCDF StoringM assiveSpatio--temporalDataUsingParallelNetCDF HeZhenfang‘ZhangYaonan ,ZhaoGuohui’ , 1.C0tdandAridRegionsEnvironmentalandEngineeringResearchInstitute,ChineseAcademyofSciences.Lanzhou 730000,China 2.GanSuHighPerformanceandGridComputingCenter,Lanzhou730000,China 3.LanzhouSuperComputingCenter,ChineseAcademyofSciences,Lanzhou730000,China Abstract: W iththetechnicaldevelopmentofremotesensing,wirelesssensornetwork,ect.,theneedsformassive spatio—temporaldatastorageare increasingdramatically.Ithasbecomeabigproblem ofrthe researchers thathow tostoreandprocessthelongtimesequencedataonacomputingcluster~Weanalyzedthespatio— temporaldatacharacteristicsandNetCDFfilestructurefeatures,andusingparallelNetCDF function library,weimplementedtheconversion ofGRID paralleldatatoNetCDFdatabasedonthecluster 基金项 目:中国科学院信息化专项项 目(INFO一115一DO1—2007);国家基金委人才基金项 目(J09300o3/JO109) 科研信息化技术与应用,2012,3(1 时间维及其他更多的维数。它描述的几何体主要包括 定义了一组新的接 口并提供了程序执行原型,并且为 栅格与点。NetCDF数据文件最多可以有一个具有无 了兼容以前的NetCDF标准,并行NetCDF仍然采用 限长度的维,无限维变量可以无限延长,也可用于其 了NetCDF格式标准,利用并行程序mpi对它进行封 他变量的索引。在时空数据的表达中,选取时间作为 装,并增加了并行读写方法。 无 限长度维。时空数据具有时变、高维、复杂、数 图2是 ParallelNetCDF的结构原理 图,它分 据量大、元数据信息丰富、现有数据格式多样化、 为三个部分:底层是文件服务器 ,功能是存储数据 长时间序列等特点,通过ParallelNetCDF可以实现数 文件,各个文件服务器采用 网络连接 。中间层是利 据与元数据的统一管理及高效的海量数据并行处理。 用 MPI.IO封装的NetCDF的函数库 。上层是程序 NetCDF文件的特点:(1)时空特性:具有描述时间属性 应用层,每台计算机都安装 了ParallelNetCDF函 与空间属性的功能;(2)可追加性:根据时间、空间的变 数库 ,编 写并行 的读 写 N
显示全部
相似文档