2025年DeepSeek:智能时代的全面到来和人机协作的新常态报告-浙江大学.docx
DeepSeek
智能时代的全面到来和人机协作的新常态
孙凌云教授
计算机科学与技术学院
2025年2月
一、智能演变
二、人机协作
三、产业现状
四、教育成长
GPT训练数据规模史无前例
GPT训练数据规模史无前例
从2018年的GPT-1到2020年的GPT-3,
模型预训练数据量从4.6GB增加到了45TB
45TB相当于三千万本《西游记》
主要模型数据集包括:
-维基百科数据集(庞大的客观知识)
-书籍(故事讲述能力与反应)
-杂志期刊(语言生成的严谨)
-Github代码等其他数据(逻辑推理)
维基百科
书籍
杂志期刊
Reddit链接
CommonCrawl
其他数据
总计
GPT-1
4.6
4.6
GPT-2
40
40
GPT-3
11.4
21
101
50
570
753
ThePilev1
6
118
244
63
227
167
825
Megatron-11B
11.4
4.6
38
107
161
MT-NLG
6.4
118
77
63
983
127
1374
Gopher
12.5
2100
164.4
3450
4823
10550
表:主要数据集大小汇总,以GB为单位。公开的数据集以粗体表示,确定的数据以斜体表示。CommonCrawl数据集过滤之前为45T
来源:OpenAI团队,LanguageModelsareFew-ShotLearners,/abs/2005.14165,2022年7月22日3
对比维度
GPT-3
DeepSeek-V3
发布时间
2020年6月
2024年12月
训练数据量
3000亿token
14.8万亿token
参数量
175B(密集架构)
671B(MoE架构)
训练成本
$12M
$5.57M
激活参数量
175B(全激活)
37B(5.5%激活率)
主要数据类型
通用互联网文本(含代码/数学)
强化代码/数学的高质量数据
官方来源
OpenAI技术论文
HuggingFace模型卡
4由AI(DeepSeekR1)搜集并整理,经人工检查
4
大模型带来大知识
全体人类知识空间
多媒体知识空间
大模型知识空间
个体知识空间
观点来自:北京大学黄铁军教授.2023年3月31日
三体人如何学习地球知识?
三体人如何学习地球知识?
电磁波探测器拯救派
三体人如何学习地球知识?
电磁波
地球文明信息
原始数据、无目标性
探测器
探测器搜集数据集精准观察、查漏补缺
拯救派
人类反馈实现对齐动态反馈、价值博弈
三体人如何学习地球知识?
电磁波
地球文明信息
原始数据、无目标性
原始数据基建
探测器
探测器搜集数据集精准观察、查漏补缺
定向能力强化
拯救派
人类反馈实现对齐动态反馈、价值博弈
价值观校准
三体人如何学习地球知识?
电磁波探测器拯救派
预训练
Pre-training
监督微调
SupervisedFine-Tuning
(SFT)
人类反馈强化学习
Reinforcementlearninghumanfeedback(RLHF)
参考GPTAssistantTrainingPipelineAndrejKarpathy.Howtotrainyour(Chat)GPTAssistant-Anemergingrecipe,2023年5月25日
三体人如何学习地球知识?
电磁波
基础模型
DeepSeek-V3-Base
探测器+拯救派
强化学习
Reinforcementlearning/GRPO
DeepSeek-R1-Zero的训练过程
结合准确性奖励(数学、编程等任务的可验证结果)和格式奖励(强制输出结构化标签),通过GRPO算法优化模型https://huggingface.co/papers/2501.129482025年1月22日
三体人如何学习地球知识?
电磁波
基础模型
DeepSeek-V3-Base
探测器+拯救派
强化学习
Reinforcementlearning/GRPO
数学题自动判分