大模型时代的异构计算平台.pptx
演讲提纲
超大模型训练对基础设施的需求
GPT-3开启大模型时代
04
02
03
GPT-3开启大模型时代
01
Lj百度智能云
大模型带来质的效果飞跃
1750亿模型带来了质的效果飞跃
32条样本即可达到BERT的效果
以OpenAIGPT-3为例
提升40%
}
提升
20%
数学计算
多轮问答
阅读理解
大模型带来AI通用性显著提升
超大规模模型逐渐具备使用处理各种新任务的通用能力
注:基于GPT-3的实验分析
指代推理
SAT考试
新词构造
爆款应用拉动大模型训练需求
AIGC文生图
ChatGPT
Jared,etal.2020.
ScalingLaw三要素
模型大小(十亿参数)
500
50
5
0.5
0.05
(蓝色:语言模型;绿色:中文语言模型;橘色:多模态模型;黄色:视觉模型)
GPT-3(175B)
Turing-NLG(17B)
XL(11B)
V-MOE(15B)
ERNIE3.0(10B)
CogView(4B)
DALL-E(1.2B)
ViT-G(2B)
ERNIE2.0(330M)
ERNIE1.0(110M)
2017/8/142018/9/182019/10/232020/11/262021/12/31
模型参数演进
大模型训练需要足够数据与算力
以GPT-3为例,1750亿参数模型、3000亿词语,计算量314ZFlops
ERNIE3.0Titan(260B)
ERNIE-VILG(10B)
BERT(340M)
SwinV2(3B)
ViT(630M)
GPT-2(1.5B)
ELMo(90M)
T5(11B)
Plato-
02
超大模型训练对基础设施的需求
Lj百度智能云
面向大模型的基础设施全景图
超大模型---
AI框架---
加速库---
资源管理层--
硬件资源---
从框架到集群,大模型软硬结合的全栈基础设施
Fleet+PaddlePaddle
AI算子库(cuDNN,cuBLAS、AIAK-OP)
集合通信库(NCCL,ECCL)
DeepSpeed/Megatron+PyTorch
ERNIE3.0
VIMER-UFO2.0
RDMA
存储节点
ERNIE3.0Titan
GPU/昆仑
本报告来源于三个皮匠报告站(),由用户Id:247865下载,文档Id:153108,下载日期:2025-01-08
GPU0
算力墙·
存储墙·
对模型和数据进行切分
从AI框架入手,解决大模型的技术挑战
ZFLOPs计算量
GPT-3:314ZFLOPs
大规模参数
175B参数
传统训练:小模型、小样本,单卡训练
大模型的变化:参数量与计算量激增
TrainingData
前向计算
反向计算
梯度更新
单卡显存80GB,放不下
A100算力312TFLOPS
千亿参数需要2TB存储
需要更多存储空间
需要分布式加速
单卡需要32年
GPU0GPU1
数据并行:
•对数据集进行切分,不同卡模型相同,数据不同
•由于数据不同,所以不同卡计算的梯度也不同
•为了迭代中多卡参数一致,需要引入梯度同步
•梯度同步过程即多卡把各自梯度求平均的过程
数据并行中主要研究方向就是梯度同步,常见评价指标如下:
•加速比=多卡全局吞吐/(单卡吞吐*卡数)
•收敛性=精度收敛到一定范围的时间
常见梯度同步策略:同步更新vs异步更新
目前大模型训练主要采用同步更新策略
策略
异步更新
同步更新
实现
节点异步上报局部梯度,更新并获取全局梯度,不等待其他节点
节