CESA-2022-047《基于深度学习芯片的分布式训练通用规范》团体标准(征求意见稿).pdf
ICS31.200
CCSL56
团体标准
T/CESAXXXX—202X
基于深度学习芯片的分布式训练通用规范
GeneralSpecificationforDistributedTrainingBasedonDeepLearningChips
(征求意见稿)
在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。
已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申请
证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利申请
号和申请日期。
202X-XX-XX发布202X-XX-XX实施
中国电子工业标准化技术协会发布
T/CESAXXXX—202X
目 次
前 言IV
1范围1
2规范性引用文件1
3术语和定义1
4缩略语2
5技术要求2
5.1环境要求2
5.2基本技术要求2
5.2.1控制主机处理器架构2
5.2.2支持主流机器学习框架3
5.2.3支持数据类型3
5.2.4虚拟化要求3
5.2.5批次大小3
5.2.6大模型训练支持3
5.2.7自动混合精度支持3
5.3分布式训练功能要求4
5.3.1分布式互联要求4
5.3.2分布式拓扑结构要求4
5.3.3可扩展性要求4
5.3.4集合通讯功能支持4
5.3.5分布式训练框架支持6
5.4集群管理功能要求6
5.4.1调度功能6
5.4.2监控告警功能6
5.4.3日志功能6
5.4.4可靠性及可维护性要求6
6评测6
6.1评测数据集7
6.1.1计算机视觉7
6.1.2自然语言处理7
6.1.3多模态8
6.2评测指标8
6.2.1总带宽9
6.2.2时延9
6.2.3加速比(线性度)9
6.2.4训练周期/时间10
6.2.5功耗10
6.2.6训练能耗10
II
T/CESAXXXX—202X
6.2.7能效比10
6.2.8吞吐量10
6.2.9业务指标10
6.3评测类型11
6.3.1通用评测11
6.3.2开放评测11
6.4评测方法11
6.4.1通用评测方法11
6.4.2开放评测方法12
6.5评测提交12
6.5.1训练代码12
6.5.2训练日志12
6.5.3训练结果概览12
6.5.4元数据13
附录A(规范性)15
表A.1:基准模型及达标要求15
附录B(资料性)16
B.1分类16
B.2分割17
B.3目标检测17
B.4自然语言处理(NLP)18
B.5多模态任务19