文档详情

面向智算场景的高性能网络白皮书(202502).pdf

发布：2025-05-24约3.91万字共40页下载文档

文本预览下载声明

面向智算场景的

高性能网络白皮书

目录

1前言1

2术语和缩略语1

3高性能网络关键需求和挑战3

3.1高性能数据中心网络(HP-DCN)3

3.1.1支持超大规模组网是基础3

3.1.2超高稳定性是前提4

3.1.3极致高性能是核心5

3.1.4多维自动化运维体系是必需6

3.1.5可规模扩展的安全机制是保障7

3.2HP-WAN8

高性能广域网（）

3.2.1有效高吞吐量是焦点8

3.2.2公平共享高带宽是关键8

4高性能网络技术架构9

4.1高性能网络技术现状和趋势9

4.2中兴高性能网络技术架构10

5高性能数据中心网络关键技术12

5.1超大规模组网关键技术12

5.1.1大规模组网交换机：硬件基础，容量速率双升12

5.1.2大规模组网路由协议：可扩展快速部署，组播能力提供13

5.2超高稳定性关键技术19

5.2.1故障无感恢复：硬件检测，多级保障19

中兴通讯版权所有未经许可不得扩散

5.2.2链路级可靠：轻量级FEC，链路层重传21

5.2.3端网协同的路径控制：端侧传递需求网络精准控制22

5.2.4网络隔离与资源保障：网络拓扑隔离，资源合理分配23

5.3极致高性能关键技术24

5.3.1层次化负载均衡：整网规划，局部调优，多粒度负载均衡24

5.3.2拥塞控制：算法无关，迅捷智能25

5.3.3集合通信卸载：统一编排，轻量传输27

5.4多维自动化运维关键技术：层次化可观测体系，高精度感知29

5.5可规模扩展安全机制关键技术：零信任模型，轻量级加密，安全会话无关32

5.5.1零信任安全架构32

5.5.2可扩展安全协议33

6高性能广域网关键技术34

6.1主动拥塞避免34

6.2近源端反馈机制34

6.3端网协同速率协商34

6.4任务式传输及配额调度34

6.5基于流的网络监控35

7展望35

8参考文献37

中兴通讯版权所有未经许可不得扩散

1前言

智算场景的普惠化正带来新一轮网络技术的革新浪潮。

随着生成式人工智能的发展，AI大模型参数量从GPT-3.5的1.75亿，到GPT-4的1.8万

亿，预计未来GPT-5将达到十万亿参数规模，迅速膨胀的AI模型需要更大规模的算力集群执

行训练。AI大模型以GPU集群分布式训练为基础，根据阿姆达定律，串行占比决定并行效

率上限，网络成为影响算力的重要因素。AI训练任务的高精度并行协同特性以及超大集群互

联吞吐量对网络性能提出了数量级的提升需求。AI大模型训练的时间往往长达数月，也使得

网络的长稳运行变得前所有未有的重要。从网络流量模型来看，AI大模型训练流量与通算流

量呈现出完全不同的特征，突发的稀疏大流成为网络常态，聚合流量具备波峰波谷效应明显、

周期性等特征，也使得很多通用数据中心的网络技术不再适用。HPC同样对网络提出高性能

需求，特别是在可扩展性以及分布式资源的高效利用方面，HPC与AI的需求趋同。一般来说

HPC对于时延更加敏感，但部分采用并行通信的计算模型，同样也关注长尾时延。

AI和HPC集群规模和服务范围的扩大对广域网传输也提出全新需求，包含数据协同和数

据快递两大应用场景。数据协同应用主要面向AI/HPC的分布式协同，例如在跨DC的AI训练

过程中的是训前模型和数据上

显示全部

相似文档