《人工智能 计算设备调度与协同 第2部分:分布式计算框架编制说明》.pdf
国家标准《人工智能计算设备调度与协同
第2部分:分布式计算框架》
(征求意见稿)编制说明
一、工作简况
1.任务来源与起草单位
根据国家标准委关于下达2022年第四批推荐性国家标准计划的通知,
国家标准《人工智能计算设备调度与协同第2部分:分布式计算框架》
制定计划下达,项目计划号T-469,由全国信息技术标准化技
术委员会提出并归口。
本标准由中国电子技术标准化研究院提出,主要参编单位包括华为技
术有限公司、中国科学院软件研究所、中国科学院计算技术研究所、北京
航空航天大学、阿里云计算有限公司、百度云计算技术(北京)有限公司、
腾讯云计算(北京)有限责任公司、浪潮电子信息产业股份有限公司、上
海商汤智能科技有限公司、上海燧原科技有限公司、上海壁仞科技股份有
限公司、上海天数智芯半导体有限公司、中国移动通信集团有限公司研究
院等单位。具体参与单位将根据实际参与情况进行调整。
2.编制背景及意义
随着人工智能计算形态的不断发展,承载AI应用的计算设备的部署和
使用呈现分布式、全场景的趋势。一个AI计算任务,往往需要多种形态的
计算设备协作完成,对不同地域、类型的社群提供服务。不同的计形态的
AI设备,需要统一的计算及管理框架,明确必要的技术要求、功能要求以
及安全要求,为产品提供参考框架以及评价体系,缓解不同形态AI计算设
备横向协同割裂的现状。
本标准拟解决以下问题:
1)因任务的数据分布广泛(端、云、边缘侧),导致人工智能计算任
1
务存在割裂,协同困难的状况。传统的CS架构难以满足要求;
2)用户常用计算协同模式(云云协同、云边端协同、多端协同等)无
标准化支撑,各平台、机构实现系统的架构、功能、接口不同,导致无法
实施横向互联互通(相对于芯片与深度学习框架的纵向互联互通)。
3.工作过程
2022年6月-9月,《人工智能计算设备调度与协同第2部分:分布
式计算框架》标准编制组成立,对该标准的立项达成共识,共同收集相关
资料,多次组织专家进行讨论,形成标准草案大纲。
2022年12月13日,该标准研制计划正式下达(国标委发【2022】39
号),计划T-469。
202312
年月,《人工智能计算设备调度与协同第部分:分布式计
算框架》标准编制工作组成立。召开首次标准研讨会,进一步明确标准范
围、目的、标准化对象、章节目录,及各章节的初步内容范围。
20231-20233
年月年月,中国电子技术标准化研究院组织标准起草工
作组多次召开标准研讨会,针对产学研单位对标准文本提出的意见建议,
持续对标准草案进行讨论、迭代。
2023322-2023324
年月日年月日,召开信标委人工智能分委会全会,
分委会成员单位就《人工智能计算设备调度与协同第2部分:分布式计
算框架》的范围和关键问题,进行广泛讨论,标准起草工作组听取意见,
并做修改。
2023年4月-2024年5月,共计召开10余次标准研讨会,2次专家论
证会,形成征求意见稿。
二、标准编制原则和确定主要内容的论据及解决的主要问题
1.标准的主要内容
本文件确立了人工智能计算设备分布式计算的架构,规定了功能和性
2
能技术要求,定义了分布式计算协同接口。
适用于用于分布式人工智能计算系统设计、开发和测试。
标准主要技术内容包括:
1)计算设备技术要求,提出云侧设备、边缘设备、终端设备为实现协
同计算而必须的基础能力;
2)关键组件技术要求,面向计算协同,对机器学习框架、虚拟化与调
度组件、集合通信库和安全组件提出能力要求;
3)协同系统要求,包含云云协同、云边端协同、多端协同;
4)分布