文档详情

18.一种计算节点集群弹性分配系统及方法.pdf

发布:2025-03-21约1.18万字共4页下载文档
文本预览下载声明

2025/2/517:40专利之星检索系统

(/Search/Index)

智能检索表格检索专家检索号单检索分类检索uuuhellfire

著录项目信息全文PDF

权利要求说明书

一种计算节点集群弹性分配系统及方法

技术领域

法律状态

本发明涉及云计算集群服务器资源动态分配管理领域,尤其涉及一种计算节点集群弹性分配系统及方法。

背景技术

伴随着计算机领域的发展,云计算领域的发展尤其迅猛。云计算通过分布式计算技术、并行计算技术、虚拟化技术和负载均衡等计算机

和网络技术向用户提供方便、快捷、安全的数据存储和网络服务。

深度学习中涉及到的运算大多是向量化的矩阵运算。作为图形加速器,GPU提供了大量的运算核心用于渲染,这些运算核心同样也可以

用来加速向量化的矩阵运算,所以近年来深度学习大量采用GPU来进行模型的训练。随着需求的增多,越来越多的云平台将GPU作为一

种计算节点资源提供给用户。

但是由于计算节点资源在硬件上的特殊性,云端计算节点资源通常是以独占的方式提供给用户的,并且这种分配的是单向、静态的,容

易造成计算节点资源过载、用户使用体验不佳的情况发生。

独占的方式下,每个计算节点资源难以最大的性能。固定的资源分配方式,难以高效的匹配不同用户的不同请求任务的需求。而仅对计

算节点资源进行一次分配的情况下,分配后的用户真正提交任务并开始运算时,初始分配的计算节点资源不一定能满足用户的计算需

求。为了解决上述问题,因此设计一种计算节点集群弹性分配系统及方法是十分有必要的。

发明内容

本发明为克服上述的不足之处,目的在于提供一种计算节点集群弹性分配系统及方法,本发明采用计算节点弹性分配机制,通过分析计

算节点状态信息,根据任务资源需求对计算节点状态进行预估,在满足需求的情况下,对计算阶段分配进行动态控制,从而提高作业响

应速度和计算节点资源使用率。

本发明是通过以下技术方案达到上述目的:一种计算节点集群弹性分配系统,包括:用户模块、计算节点管理模块、计算节点资源模块

和存储服务器;所述用户模块提供用户登陆端口以及用户任务请求信息的入口;所述计算节点资源模块中有模块化的计算节点集群资

源,用于执行用户的计算任务;所述存储服务器用于存储运算数据以及操作日志;所述计算节点管理模块包括验证模块,任务资源预估

模块,计算节点控制模块,计算节点状态监控模块;其中,所述验证模块用于从用户模块获取用户登录信息和任务请求信息,验证后将

用户登录信息和任务请求信息发送至任务资源预估模块;所述任务资源预估模块,用于接受从验证模块发送来的用户登录信息和任务请

求信息;并根据用户提交的任务描述及选择参数进行计算资源节点使用预估判断;所述计算节点控制模块:用于根据从所述任务资源预

估模块中发送过来的所述计算资源节点使用预估判断结果对所述计算节点资源模块的进行调控分配,同时可接受所述计算节点监控模块

显示全部
相似文档