北京大学-DeepSeek第3弹:DeepSeek-R1及类强推理模型开发解读.pdf
y
t
i
s
r
DeepSeek-R1\Kimi1.5及
e
v
i
类强推理模型开发解读
n
陈博远
U
北京大学2022级“通班”
g
主要研究方向:大语言模型对齐与可扩展监督
n
i
https://cby-pku.github.io/
k/
e
P
北大对齐小组
Outline2
➢DeepSeek-R1开创RL加持下强推理慢思考范式新边界
➢DeepSeek-R1Zero及R1技术剖析
➢Pipeline总览\DeepSeek-V3Base\DeepSeek-R1Zero及R1细节分析
y
t
➢RL算法的创新:GRPO及其技术细节i
s
➢DeepSeek-R1背后的InsightsTakeaways:RL加持下的长度泛化\推理范式的涌现
r
➢DeepSeek-R1社会及经济效益e
➢技术对比探讨v
i
➢STaR-basedMethodsvs.RL-basedMethods强推理路径对比(DS-R1\Kimi-1.5\o-series)
n
➢蒸馏vs.强化学习驱动:国内外现有各家技术路线对比分析及Takeaways
➢PRMMCTS的作用U
➢从文本模态到多模态g
➢其他讨论:Over-Thinking过度思考等
n