文档详情

2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdf

发布:2025-05-22约3.5万字共29页下载文档
文本预览下载声明

华为昇腾服务器DeepSeekV3/R1推理部署最佳实践

樊玉伟,郑灵超,李勇锋,区晓峰,李君,KenZhang,韩伟,李亿

杜霄鹏,王鹏程,刘杰,董谷音,梁泓,柳伊扬,廖崎臣,高雪健

王鹏宇,赵毅,王翔,林栋,练韵文,林清扬,陈衎,庞西豹

吕俊龙,兰龙文,张维熹,丁益斌,高宇,陶壮,张弓,谢冬辉

范港华,范峻逸,胡琤球,李宝,郑乐文,陈付恺,申智好,金颖

华为技术有限公司

2025年5月19日

摘要

本报告旨在探讨华为昇腾服务器上部署DeepSeekV3/R1推理的最佳实践。为满足不同

推理场景的需求,本文提供两种不同的部署形态。第一种是基于华为CloudMatrix384超

节点的大规模EP部署策略:为充分发挥CloudMatrix384的独特组网优势,使用其中的

144张卡作为一个Decode实例,以实现较低时延下的高并发,当前已达到了50ms时延约

束下每卡输出1920Tokens/s。第二种是基于Atlas800IA2服务器的小规模EP部署策略:

使用4节点A2服务器作为一个Decode实例,以实现较优吞吐下的灵活部署,当前达到了

100ms时延约束下每卡输出723∼808Tokens/s。

我们采用基于vLLM的部署框架,并面向昇腾服务器进行修改以适配EP/DP/TP混合

并行策略,同时满足灵活调度和极致性能的需求。模型层面,采用A8W8(INT8)的动态量

化方式,并使用Multi-TokenPrediction技术进行加速。针对昇腾芯片和昇腾服务器组网特

征,从数学上重新审视模型的推理过程,选用了合适的并行方式和计算逻辑,同时还充分利

用了昇腾硬件支持多种多流并发的能力以最大化实现通信/计算/数据搬运的相互掩盖,实

现模型层面的性能极致。算子层面,提出了多种结合数学等价变换、融合算子、缓存复用和

流水掩盖等技术的计算和通信算子的优化方案,使MLA、MoE和通信算子达到预期的算

力利用率、访存带宽和通信带宽。

本报告将详细介绍上述两套部署方案,并列出关键的特性和优化技术,更详细的技术细

节之后会陆续公开。

1

目录

1引言3

2昇腾服务器和组网5

2.1昇腾芯片........................................5

2.2Atlas800IA2服务器..................................5

2.3CloudMatrix384超节点................................6

3DeepSeekV3/R1模型部署方案6

3.1模型与框架配置...................................

显示全部
相似文档