文档详情

2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdf

发布：2025-05-22约3.5万字共29页下载文档

文本预览下载声明

华为昇腾服务器DeepSeekV3/R1推理部署最佳实践

樊玉伟，郑灵超，李勇锋，区晓峰，李君，KenZhang，韩伟，李亿

杜霄鹏，王鹏程，刘杰，董谷音，梁泓，柳伊扬，廖崎臣，高雪健

王鹏宇，赵毅，王翔，林栋，练韵文，林清扬，陈衎，庞西豹

吕俊龙，兰龙文，张维熹，丁益斌，高宇，陶壮，张弓，谢冬辉

范港华，范峻逸，胡琤球，李宝，郑乐文，陈付恺，申智好，金颖

华为技术有限公司

2025年5月19日

摘要

本报告旨在探讨华为昇腾服务器上部署DeepSeekV3/R1推理的最佳实践。为满足不同

推理场景的需求，本文提供两种不同的部署形态。第一种是基于华为CloudMatrix384超

节点的大规模EP部署策略：为充分发挥CloudMatrix384的独特组网优势，使用其中的

144张卡作为一个Decode实例，以实现较低时延下的高并发，当前已达到了50ms时延约

束下每卡输出1920Tokens/s。第二种是基于Atlas800IA2服务器的小规模EP部署策略：

使用4节点A2服务器作为一个Decode实例，以实现较优吞吐下的灵活部署，当前达到了

100ms时延约束下每卡输出723∼808Tokens/s。

我们采用基于vLLM的部署框架，并面向昇腾服务器进行修改以适配EP/DP/TP混合

并行策略，同时满足灵活调度和极致性能的需求。模型层面，采用A8W8(INT8)的动态量

化方式，并使用Multi-TokenPrediction技术进行加速。针对昇腾芯片和昇腾服务器组网特

征，从数学上重新审视模型的推理过程，选用了合适的并行方式和计算逻辑，同时还充分利

用了昇腾硬件支持多种多流并发的能力以最大化实现通信/计算/数据搬运的相互掩盖，实

现模型层面的性能极致。算子层面，提出了多种结合数学等价变换、融合算子、缓存复用和

流水掩盖等技术的计算和通信算子的优化方案，使MLA、MoE和通信算子达到预期的算

力利用率、访存带宽和通信带宽。

本报告将详细介绍上述两套部署方案，并列出关键的特性和优化技术，更详细的技术细

节之后会陆续公开。

1引言3

2昇腾服务器和组网5

2.1昇腾芯片........................................5

2.2Atlas800IA2服务器..................................5

2.3CloudMatrix384超节点................................6

3DeepSeekV3/R1模型部署方案6

3.1模型与框架配置...................................

显示全部

相似文档