文档详情

DeepSeek基础知识详解.pdf

发布：2025-03-04约1.39万字共42页下载文档

文本预览下载声明

DeepSeek的背景知识

什么是DeepSeek

-DeepSeek公司：杭州深度求索人工智能基础技术研究有限公司

。-DeepSeek大模型：DeepSeek公司推出的一系列大模型的统

称。

DeepSeek的背景知识

DeepSeek公司

-成立时间：2023年7月；

-创始人：梁文峰(幻方量化的联合创始人);

-所在城市：浙江省杭州市拱墅区；

-公司口号：探索未至之境；

-公司业务方向：专注于通用人工智能(AGI)技术的研发和应用；

-“杭州六小龙”之一；

-团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校。

DeepSeek的背景知识

梁文峰

-出生年份：1985年；

-籍贯：广东省湛江市吴川市覃巴镇米历岭村；

-学历背景：

·2002年，考入浙江大学电子工程系电子信息工程专业；

·2007年，考上浙江大学信息与通信工程专业研究生；2010年，获得硕士学位；

-工作背景：

·2008年，开始带领团队使用机器学习等技术探索量化交易；

·2015年，创立了幻方科技(杭州幻方科技有限公司);

·2019年，其资金管理规模突破百亿元；

·2023年7月，幻方量化宣布成立大模型公司DeepSeek,进入通用人工智能(AGI)领域。

DeepSeek的背景知识

DeepSeek大模型发布时间表

-2024年01月05日，正式发布首个大模型DeepSeekLLM;

-2024年01月25日，正式发布DeepSeek-Coder,由一系列代码语言模型组成；

-2024年02月05日，正式发布DeepSeek-Math,以DeepSeek-CoderV1.57b为基础；

-2024年03月11日，正式发布DeepSeek-VL,是一个开源的视觉-语言(VL)模型；

-2024年05月07日，正式发布第二代开源MoE模型DeepSeek-V2;

-2024年06月17日，正式发布DeepSeek-Coder-V2,支持的编程语言从86种扩展到338种；

-2024年09月06日，合并DeepSeek-Coder-V2和DeepSeek-V2-Chat两个模型，升级推出DeepSeek-V2.5;

-2024年11月20日，正式发布DeepSeek-R1-Lite预览版；

-2024年12月13日，正式发布DeepSeek-VL2,用于高级多模态理解的专家混合视觉语言模型；

-2024年12月26日，正式发布DeepSeek-V3,并同步开源模型权重；

-2025年01月20日，正式发布DeepSeek-R1、DeepSeek-R1-Zero,并同步开源模型权重。

DeepSeek的背景知识

掀起本次DeepSeek热潮的，主要是——

DeepSeek-V3

DeepSeek-R1

DeepSeek-R1-Zero

PART02DeepSeek的技术特点

DeepSeek的技术特点

DeepSeek-V3的基本情况

-DeepSeek-V3是一款高性能、低成本的开源通用语言模型。

-适用场景：高性能对话、复杂任务处理和高精度场景，例如长文档分析、多模态推理、科研计算等。

-设计目标：进一步提升开源模型的能力，缩小与闭源模型的差距，同时保持训练成本的经济性。

-参数规模：共有6710亿个参数。但每次处理一个token时只激活370亿个参数。这种设计降低了计算成本。

-训练成本：总计278.8万H800GPU小时(Meta的Llama3.1需要3080万GPU小时)。假设每小时2美元，费

用约557.6万美元(约为GPT-4的二十分之一)。

-价格费用：模型API服务定价为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出

tokens8元。在性能实现领先的同时，定价大幅低于市面上所有模型，性

显示全部

相似文档