文档详情

基于任务资源需求预测的人工智能算力调度.pdf

发布:2024-11-18约3.62万字共11页下载文档
文本预览下载声明

高技术通讯2024年第34卷第5期:475-485

doi:10.3772/j.issn.1002-0470.2024.05.004

基于任务资源需求预测的人工智能算力调度①

②∗∗∗③∗∗∗∗∗

杨明烜洪学海唐宏伟

(中国科学院计算技术研究所北京100190)

∗∗

(中国科学院大学北京100049)

∗∗∗

(中国科学院大学南京学院南京211135)

摘要为提升人工智能(AI)算力的任务执行效率和资源利用率,本文提出一种基于任

务资源需求预测的AI算力调度方法,指导资源调度过程。相比于以往大多数研究工作仅

围绕着图形处理器(GPU)资源设计的AI算力调度方法,本文充分考虑了多个维度资源

对用户任务运行效率和计算集群资源利用的影响。本文基于机器学习方法构建任务资源

需求预测模型,分析多维度资源对任务性能的影响,进而完成自适应资源伸缩调度,解决

用户超额申请问题。实验结果表明,在相同时间内,该方法实现了更多任务的部署和执

行。任务部署量提升25.3%,部署任务的完成率提升15.2%,GPU和内存利用率分别提

升7.2%和8.0%,提升了算力资源的总体利用率。

关键词资源调度;弹性资源分配;人工智能(AI);算力

为了高效训练大规模人工智能(artificialintelli-现调度目标。然而,现有研究工作都将算力集群的

gence,AI)机器学习任务(简称AI任务),研究机GPU硬件资源作为影响任务性能表现的主要因素,

构、科技企业、云厂商常常构建包含大量图形处理器忽视了算力集群中的中央处理器(centralprocessing

(graphicsprocessingunit,GPU)、神经网络处理器unit,CPU)、内存、网络等其他维度资源的影响。AI

(neural-networkprocessingunit,NPU)等硬件加速器算力调度需要考虑算力集群多维度资源的分配和利

的大规模计算集群,用于AI任务的增速提效。但从用。

成本与技术角度考虑,AI算力的能力提升不能只依

赖于算力硬件资源规模的增长,应该采用新的技术1相关工作

手段,面向现有AI算力资源,实现计算效率的提升。

因而,AI算力调度技术就成为需要研究的课题。此前相关研究工作中,关于AI算力集群调度的

AI算力调度,即AI算力资源所构成集群硬件研究是在面向大数据任务处理的传统集群调度方法

资源和计算任务匹配的调度,可用于提升AI算力的的基础上,根据AI任务特性对GPU资源的分配进

资源利用率和任务训练效率。这项研究近年来逐渐行优化,从而提升AI任务性能或GPU资源利用率。

成为人工智能领域研究的重点之一。越来越多的面文献[1]的调度器考虑了AI任务在训练过程中的

[1-5]

向AI算力调度的研究方案被提出,这些工作通周期性特性,以指导GPU分配和共享,实现GPU资

过对AI任务负载的特性分析,调整集群调度策略实源利用率的提升。文献[2]的调度器在设计中考虑

①国家重点研发计划(2016YFC1401706)资助项目。

②女,1999年生,博士生;

显示全部
相似文档