文档详情

大模型时代的异构计算平台.pptx

发布:2025-01-13约1.2万字共39页下载文档
文本预览下载声明

演讲提纲

超大模型训练对基础设施的需求

GPT-3开启大模型时代

04

02

03

GPT-3开启大模型时代

01

Lj百度智能云

大模型带来质的效果飞跃

1750亿模型带来了质的效果飞跃

32条样本即可达到BERT的效果

以OpenAIGPT-3为例

提升40%

}

提升

20%

数学计算

多轮问答

阅读理解

大模型带来AI通用性显著提升

超大规模模型逐渐具备使用处理各种新任务的通用能力

注:基于GPT-3的实验分析

指代推理

SAT考试

新词构造

爆款应用拉动大模型训练需求

AIGC文生图

ChatGPT

Jared,etal.2020.

ScalingLaw三要素

模型大小(十亿参数)

500

50

5

0.5

0.05

(蓝色:语言模型;绿色:中文语言模型;橘色:多模态模型;黄色:视觉模型)

GPT-3(175B)

Turing-NLG(17B)

XL(11B)

V-MOE(15B)

ERNIE3.0(10B)

CogView(4B)

DALL-E(1.2B)

ViT-G(2B)

ERNIE2.0(330M)

ERNIE1.0(110M)

2017/8/142018/9/182019/10/232020/11/262021/12/31

模型参数演进

大模型训练需要足够数据与算力

以GPT-3为例,1750亿参数模型、3000亿词语,计算量314ZFlops

ERNIE3.0Titan(260B)

ERNIE-VILG(10B)

BERT(340M)

SwinV2(3B)

ViT(630M)

GPT-2(1.5B)

ELMo(90M)

T5(11B)

Plato-

02

超大模型训练对基础设施的需求

Lj百度智能云

面向大模型的基础设施全景图

超大模型---

AI框架---

加速库---

资源管理层--

硬件资源---

从框架到集群,大模型软硬结合的全栈基础设施

Fleet+PaddlePaddle

AI算子库(cuDNN,cuBLAS、AIAK-OP)

集合通信库(NCCL,ECCL)

DeepSpeed/Megatron+PyTorch

ERNIE3.0

VIMER-UFO2.0

RDMA

存储节点

ERNIE3.0Titan

GPU/昆仑

本报告来源于三个皮匠报告站(),由用户Id:247865下载,文档Id:153108,下载日期:2025-01-08

GPU0

算力墙·

存储墙·

对模型和数据进行切分

从AI框架入手,解决大模型的技术挑战

ZFLOPs计算量

GPT-3:314ZFLOPs

大规模参数

175B参数

传统训练:小模型、小样本,单卡训练

大模型的变化:参数量与计算量激增

TrainingData

前向计算

反向计算

梯度更新

单卡显存80GB,放不下

A100算力312TFLOPS

千亿参数需要2TB存储

需要更多存储空间

需要分布式加速

单卡需要32年

GPU0GPU1

数据并行:

•对数据集进行切分,不同卡模型相同,数据不同

•由于数据不同,所以不同卡计算的梯度也不同

•为了迭代中多卡参数一致,需要引入梯度同步

•梯度同步过程即多卡把各自梯度求平均的过程

数据并行中主要研究方向就是梯度同步,常见评价指标如下:

•加速比=多卡全局吞吐/(单卡吞吐*卡数)

•收敛性=精度收敛到一定范围的时间

常见梯度同步策略:同步更新vs异步更新

目前大模型训练主要采用同步更新策略

策略

异步更新

同步更新

实现

节点异步上报局部梯度,更新并获取全局梯度,不等待其他节点

显示全部
相似文档