2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdf
华为昇腾服务器DeepSeekV3/R1推理部署最佳实践
樊玉伟,郑灵超,李勇锋,区晓峰,李君,KenZhang,韩伟,李亿
杜霄鹏,王鹏程,刘杰,董谷音,梁泓,柳伊扬,廖崎臣,高雪健
王鹏宇,赵毅,王翔,林栋,练韵文,林清扬,陈衎,庞西豹
吕俊龙,兰龙文,张维熹,丁益斌,高宇,陶壮,张弓,谢冬辉
范港华,范峻逸,胡琤球,李宝,郑乐文,陈付恺,申智好,金颖
华为技术有限公司
2025年5月19日
摘要
本报告旨在探讨华为昇腾服务器上部署DeepSeekV3/R1推理的最佳实践。为满足不同
推理场景的需求,本文提供两种不同的部署形态。第一种是基于华为CloudMatrix384超
节点的大规模EP部署策略:为充分发挥CloudMatrix384的独特组网优势,使用其中的
144张卡作为一个Decode实例,以实现较低时延下的高并发,当前已达到了50ms时延约
束下每卡输出1920Tokens/s。第二种是基于Atlas800IA2服务器的小规模EP部署策略:
使用4节点A2服务器作为一个Decode实例,以实现较优吞吐下的灵活部署,当前达到了
100ms时延约束下每卡输出723∼808Tokens/s。
我们采用基于vLLM的部署框架,并面向昇腾服务器进行修改以适配EP/DP/TP混合
并行策略,同时满足灵活调度和极致性能的需求。模型层面,采用A8W8(INT8)的动态量
化方式,并使用Multi-TokenPrediction技术进行加速。针对昇腾芯片和昇腾服务器组网特
征,从数学上重新审视模型的推理过程,选用了合适的并行方式和计算逻辑,同时还充分利
用了昇腾硬件支持多种多流并发的能力以最大化实现通信/计算/数据搬运的相互掩盖,实
现模型层面的性能极致。算子层面,提出了多种结合数学等价变换、融合算子、缓存复用和
流水掩盖等技术的计算和通信算子的优化方案,使MLA、MoE和通信算子达到预期的算
力利用率、访存带宽和通信带宽。
本报告将详细介绍上述两套部署方案,并列出关键的特性和优化技术,更详细的技术细
节之后会陆续公开。
1
目录
1引言3
2昇腾服务器和组网5
2.1昇腾芯片........................................5
2.2Atlas800IA2服务器..................................5
2.3CloudMatrix384超节点................................6
3DeepSeekV3/R1模型部署方案6
3.1模型与框架配置...................................