C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  少尉

注册:2007-10-294
发表于 2025-2-5 20:03:37 |显示全部楼层

2025 年初,AI 领域掀起了一场前所未有的风暴,一家成立仅三年的中国企业深度求索接连放出两枚“核弹”:
DeepSeek 推理模型 R1:正面硬刚 OpenAI o1,不仅性能媲美,还彻底开源

DeepSeek 千亿参数模型 V3:训练成本仅 557 万美金,比 GPT-4便宜 10 倍
消息一出,Nvidia(英伟达)市值单日蒸发 1200 亿美金,美股 AI 概念股全线暴跌,整个硅谷为之震动。这不仅仅是技术上的颠覆,更是 AI 竞争格局的彻底改写。DeepSeek 证明了领先 AI 并不一定依赖昂贵的算力,美国的芯片封锁政策或许已经失效

这场 AI 变局的核心看点:
低成本、高效率:DeepSeek 训练 V3 的总算力仅 278.8 万 GPU 小时,相比 OpenAI 和 谷歌 的动辄数十亿美金投入,展现出 AI 训练成本大幅下降的可能性。

芯片禁令:DeepSeek 的诸多创新,正是为了克服 H800 相较于 H100 的内存带宽劣势。如果 DeepSeek 能够使用 H100,他们会选择更大的训练集群,而不是针对 H800 进行如此极致的优化。

AI 自主进化:DeepSeek 的 R1-Zero 依靠纯强化学习(RL),无需人工标注,就能自己学会推理和优化答案。

开源冲击波:与 OpenAI 越来越封闭的策略相反,DeepSeek 选择开放权重,这一决定或将引发 AI 研究范式的重大转变。
这场 AI 格局重塑的背后,究竟意味着什么?DeepSeek 的策略如何改变全球科技版图?在这场行业剧变中,科技分析顶流博客 Stratechery 的创始人Ben Thompson再次站在了前沿。

亚星游戏官网-yaxin222


作为《纽约时报》《经济学人》的特约撰稿人,Thompson 的深度推演长期被硅谷高管视为战略决策的参考。早在 2023 年,他就预测 “AI 模型商品化将摧毁封闭生态”,DeepSeek 事件正是这一理论的完美验证。

本篇文章编译自 Stratechery 最新专栏,全文都以问答形式(FAQ)呈现,带你深入解析 DeepSeek 如何打破 AI 竞争格局,以及这对全球科技产业意味着什么。

01 DeepSeek 发布了什么公告?

最近一次引发轰动的公告是R1,一个类似于 OpenAIo1的推理模型。

然而,导致此次轰动的诸多信息——包括 DeepSeek 的训练成本——实际上是在V3公布时(圣诞节期间)披露的。

此外,支撑V3取得突破的许多技术,实际上是在去年一月份发布的 V2 模型时就已经公开了

02 带火了这种模型命名方式,是 OpenAI 犯下的最大“罪行”吗?

这是第二大的,大家很快会谈到 OpenAI 最大的罪行。

03 从前往后看:V2 模型是什么?为什么它如此重要?

DeepSeek-V2 引入了两个重要的技术突破:DeepSeekMoEDeepSeekMLA

DeepSeekMoE 中的 “MoE” 代表 “Mixture of Experts”(专家混合)。 像 GPT-3.5 这样的模型,在训练和推理过程中会激活整个模型; 然而,实际上,并不是所有部分都对特定任务必要。 MoE 技术将模型划分为多个“专家”,并且只激活必要的部分。 例如,GPT-4 就是一个 MoE 模型,据信包含 16 个专家,每个专家大约有1100 亿个参数

DeepSeekMoE 在V2中实现了对这一概念的重要改进,包括区分更精细的专业专家,以及具有更广泛能力的共享专家。更重要的是,DeepSeekMoE 引入了全新的负载均衡和训练路由方法。传统的 MoE 训练过程中,通信开销较大,但推理效率更高;DeepSeek 的方法优化了训练过程,使其更加高效。

DeepSeekMLA是一个更大的突破。推理过程中最大的限制之一是巨大的内存需求:不仅需要将整个模型加载到内存中,还需要加载整个上下文窗口。上下文窗口的存储成本特别高,因为每个 token 都需要存储对应的key-value

所谓的MLA,即多头潜在注意力(multi-head latent attention),使得 key-value 存储可以被压缩,从而大幅减少推理时的内存使用

这些突破的关键影响——以及你需要理解的部分——直到V3才真正显现出来。

V3 进一步优化了负载均衡(进一步减少通信开销),并在训练中引入了多 token 预测(使每个训练步骤更加密集,进一步减少开销)。

最终结果是:V3 的训练成本惊人地低廉

DeepSeek 声称,模型训练花费了 278.8 万 H800 GPU 小时,按照 $2/GPU 小时 计算,总成本仅为$557.6 万美金。

DeepSeek 明确表示,这些成本仅限于最终的训练过程,不包括所有其他开销。

根据V3 论文(https://arxiv.org/pdf/2412.19437) :

最后,大家再次强调,DeepSeek-V3 经济高效的训练成本是通过大家对算法、框架和硬件的优化协同设计实现的。

在预训练阶段,训练 DeepSeek-V3每万亿 token 仅需 18 万 H800 GPU 小时,即 在大家由 2048 张 H800 GPU 组成的集群上仅需 3.7 天

因此,大家的预训练阶段在不到两个月的时间内完成,总计耗费 266.4 万 GPU 小时。 再加上 11.9 万 GPU 小时的上下文长度扩展和 5000 GPU 小时的后训练,DeepSeek-V3 总训练成本仅为 278.8 万 GPU 小时。

假设 H800 GPU 租赁价格为 $2/GPU 小时,大家的总训练成本仅为 $557.6 万

需要注意的是,上述成本仅包括 DeepSeek-V3 的正式训练,不包括架构、算法或数据的前期研究和消融实验成本

所以,你无法用 557.6 万美金复制 DeepSeek 这家企业

04 怎么证实论文里的那些数字?

首先,谁质疑谁举证。 尤其是当你理解V3 的架构之后,就更不该提出这个问题。

回想一下 DeepSeekMoE 的部分: V3 拥有 6710 亿参数,但每个 token 只会激活 370 亿个参数的专家,计算量相当于 3333 亿 FLOPs(浮点运算)/token。

此外,DeepSeek 还采用了一项新的创新:参数存储时采用 BF16 或 FP32 精度,但计算时降至 FP8 精度。2048 张 H800 GPU 的总计算能力为 3.97 exaFLOPs(3.97 百亿亿 FLOPs)。

所以,训练数据集包含 14.8 万亿 token,如果进行计算,你会发现 278.8 万 H800 GPU 小时确实足够训练 V3

当然,这只是最终的训练阶段,并非所有成本,但这个数字是合理的。

05 DeepSeek 真的有 5 万张 H100 GPU 吗?

Scale AI 的 CEOAlexandr Wang曾表示他们拥有 50,000 张 H100。

但实际上,大家不知道 Alexandr Wang 的消息来源。他可能是参考了 2024 年 11 月 Dylan Patel 的一条推文,该推文声称 DeepSeek 拥有超过 50,000 张 Hopper GPU。

亚星游戏官网-yaxin222


H800 也是 Hopper 架构的 GPU,但由于美国制裁,H800 的内存带宽远低于 H100

关键点在于:DeepSeek 的诸多创新,正是为了克服 H800 相较于 H100 的内存带宽劣势。如果你认真计算过 V3 训练过程,你会发现 DeepSeek 实际上拥有过剩的计算能力,这是因为 DeepSeek 专门在 H800 的 132 个处理单元中划分了 20 个用于管理芯片间通信。

这在CUDA中是无法做到的,因为 DeepSeek 的工程师必须使用 PTX(Nvidia GPU 的低级指令集,类似于汇编语言)进行优化。这种级别的优化只有在必须使用 H800 时才有意义如果 DeepSeek 能够使用 H100,他们可能会选择更大的训练集群,而不是针对 H800 进行如此极致的优化。

此外,DeepSeek 还开放了模型的推理接口,这意味着他们还需要额外的 GPU 资源来提供推理服务,远不止训练所需的 GPU 数量。

06 这是否违反了美国的芯片禁令?

没有。

H100 被美国禁令禁止出口到中国,但 H800 没有被禁。

很多人认为,训练领先的 AI 模型需要更高的芯片间带宽,但 DeepSeek 正是围绕 H800 的带宽限制,优化了模型架构和训练基础设施。

再次强调,DeepSeek 的所有决策,只有在被限制使用 H800 的情况下才有意义。如果他们能用 H100, 他们很可能会采用更大的集群,而不会费力优化带宽问题 。

07 V3 是一款领先的 AI 模型吗?

是的。

它至少能与 OpenAI 的GPT-4o和 Anthropic 的Claude Sonnet 3.5竞争,而且比Meta Llama系列现有的最大模型更强。

一个很有可能的情况是,DeepSeek 通过蒸馏(distillation)技术,从 GPT-4o 等模型中提取了高质量的训练数据。

08 什么是蒸馏(distillation)?

蒸馏是一种从另一个模型中提取常识的方法。

你可以向一个更强的“教师”模型提供输入,记录其输出,然后用这些数据训练“学生”模型。例如,GPT-4 Turbo 可能是从 GPT-4 通过蒸馏得到的。对于 AI 企业来说,自己对自己的模型进行蒸馏比较容易,因为他们可以完全访问这些模型。

即使没有完整的访问权限,通过 API 甚至聊天客户端也能进行蒸馏

蒸馏显然违反了 OpenAI 等企业的使用条款,但唯一能阻止它的办法就是直接封禁访问,比如 IP 封锁、速率限制等。

行业内普遍认为,蒸馏在 AI 训练过程中非常普遍,这也是为什么越来越多的模型接近 GPT-4o 的质量。

尽管大家无法确切知道 DeepSeek 是否蒸馏了 GPT-4o 或 Claude,但如果他们没有这样做,反而会令人惊讶

*(欢迎回顾《万有引力》栏目对 DeepSeek 优化策略的相关讨论:《“纯”大模型企业不复存在、产品经理将比程序员更重要?林咏华、黄东旭、李建忠激辩大模型 | 万有引力》)

09 蒸馏对领先的 AI 企业来说是个坏消息吗?

对,这是个坏消息。

但也有正面影响:OpenAI、Anthropic、谷歌 可能都在用蒸馏来优化自己的推理模型,从而降低成本,提高效率

负面影响是,他们要承担昂贵的训练成本,而其他人可以“免费搭车”。

这可能正是MicroSoft和 OpenAI 关系渐行渐远的核心经济因素。MicroSoft主要关心推理服务(提供 AI 计算能力),但不太愿意资助 OpenAI 建设 1000 亿美金的数据中心来训练模型。

因为在MicroSoft看来, 这些模型很可能在建成之前就已经被行业普遍模仿和复制了。

10 这就是最近科技股股价下跌的原因吗?

从长期来看,模型的普及化和推理成本降低对科技巨头是好事。

MicroSoft可以更低成本地向客户提供 AI 服务,要么减少数据中心投资,要么因 AI 变便宜导致使用量激增。

AMAZON(AWS)自己没能训练出最好的 AI 模型,但如果有高质量的开源模型,他们可以直接提供推理服务,从而大幅降低成本。

苹果也是赢家。推理所需的内存大幅降低,使得“边缘推理”(edge inference)更加可行,而苹果芯片(Apple Silicon)正是这方面的佼佼者。

Meta(脸书)可能是最大赢家。他们的 AI 业务本来就很强,而推理成本降低将使 AI 在 Meta 的产品中更容易扩展。

谷歌的处境可能会更艰难:

TPU 的相对优势降低了,因为硬件要求下降了。

如果推理变得“零成本”,那么可能会出现更多的 AI 应用来取代搜索引擎。

尽管 谷歌 也能享受更低的成本,但任何改变现状的事情,通常对 谷歌 都是负面的

所以,短期来看,市场正在消化 R1 的冲击 。

11 终于可以开始讲 R1 了吗?

其实我花了很多时间讲 V3,是因为V3 才是实际体现行业变革的模型

R1 是一个类似于 OpenAI o1 的推理模型。它可以分步骤思考问题,从而大幅提高代码、数学、逻辑等领域的准确性。它的诞生意味着:

1.OpenAI 没有护城河

2. R1 是一个开源权重模型,任何人都可以下载并自行运行,无需付费给 OpenAI。

12 DeepSeek 是怎么训练出 R1 的?

DeepSeek 实际上训练了两个模型:

R1

R1-Zero

R1-Zero 更值得关注,因为它是一个完全基于强化学习(RL)的推理模型。它没有使用任何人工标注数据,而是通过自我进化(self-evolution)学会了推理能力。

根据R1 论文(https://arxiv.org/pdf/2501.12948),R1-Zero 通过 RL 训练后,其数学推理能力从 15.6% 提高到 71.0%,如果使用投票机制,甚至可以达到 86.7%,与 OpenAI o1-0912 相媲美。

DeepSeek 采用了一种全新的强化学习方法 来训练 R1-Zero。他们没有依赖人类反馈(RLHF),而是完全依靠 AI 自己的进化(self-evolution)
经典强化学习的例子是 lphaGo,DeepMind 仅告诉 AI 围棋的规则,并设置了“获胜”作为奖励函数,然后 AI 自己摸索出最佳策略。

但 LLM(大语言模型)通常需要 RLHF(人类反馈强化学习),因为人类需要引导它们做出更自然、连贯的回答。
然而,DeepSeek 完全放弃了人类反馈,直接让 AI 通过自我学习进化:

1. 他们给 R1-Zero 一组数学、代码、逻辑问题。

2. 设置两个奖励函数:

答案正确 → 奖励

答案结构合理(具有推理过程) → 额外奖励

3. AI 自己尝试不同的解法,并优化自己的推理能力。

DeepSeek 发现:R1-Zero 在训练过程中自然学会了推理能力,并且出现了“顿悟时刻”(Aha Moments)!

13 什么是“顿悟时刻”?

在训练 R1-Zero 的过程中,研究人员观察到 AI 自己学会了分配更多的时间思考复杂问题。

会重新评估自己的解法,如果发现思路不对,就会切换到新的解法

这完全是 AI 自己“领悟”出来的能力,没有人类引导!

DeepSeek 论文这样描述这一现象:
“顿悟时刻”发生在模型的中间训练阶段。

在这一阶段,DeepSeek-R1-Zero 逐渐学会为某些问题分配更多的思考时间,通过重新评估初始解法来寻找更好的答案。

这种现象不仅证明了模型推理能力的成长,也展现了强化学习如何带来意想不到的复杂智能行为。
这与 DeepMind 训练 AlphaGo Zero 时观察到的现象类似:

一开始 AI 只会使用简单的策略,但随着训练的进行,AI 逐渐发展出复杂的战术。

它们学会如何思考,而不是仅仅模仿人类答案。

这也证明了 AI 真的可以靠自己学会推理,而不需要人类干预。

14 R1 的实际表现为什么比 R1-Zero 更强?

虽然 R1-Zero 具备很强的推理能力,但它存在两个主要问题

1. 答案的可读性很差(AI 过于关注推理,忽略了语言表达)。

2. 存在语言混杂问题(部分回答会夹杂多种语言,不够一致)。

为了解决这些问题,DeepSeek 进一步优化了 R1:

1. 加入了少量人工标注的“冷启动”数据,让 AI 学会更自然的表达方式。

2. 引入多阶段训练策略:

先用“冷启动”数据微调 DeepSeek-V3-Base,让 AI 学会基本的推理表达。

再进行类似 R1-Zero 的强化学习训练,进一步增强推理能力。

最后,使用 RL 训练生成的新数据进行监督微调(SFT),确保 AI 的答案既准确又易读。

最终,R1 训练出的推理能力,与 OpenAI o1-1217 相当!

15 这是否意味着 AI 学会了自主训练?

答案是肯定的。

DeepSeek 证明了 AI 可以通过强化学习,自我进化出推理能力。
传统观点认为,AI 需要人类引导才能学会推理。

但 R1-Zero 只需要大量计算资源和奖励函数,就能自己学会推理!
换句话说,AI 现在可以自己训练自己:

AI 生成新的数据

AI 自己评估数据质量

AI 通过强化学习提高推理能力

标志着 AI 进入了一个新的发展阶段

AI 训练不再依赖人类标注数据

AI 可以自己优化自己的能力

这意味着,大家正在见证 AI 加速进化的拐点。

16 这是否意味着 AGI(通用人工智能)即将到来?

目前,R1 并不是 AGI,但它确实向 AGI 迈出了重要一步

DeepSeek 已经证明了 AI 可以自己学习推理能力,接下来:

如果 AI 也能自己优化记忆和常识整合能力,那 AGI 就真的近在咫尺了!

这就是为什么 OpenAI 和 DeepSeek 竞赛如此激烈——他们都在向 AGI 迈进。

17 OpenAI 现在处于劣势了吗?

不一定。

尽管 DeepSeek 在效率上领先,但 OpenAI 仍然拥有更强的整体模型能力:

o3(推理模型)比 R1 更强

OpenAI 拥有更丰富的训练数据

他们有MicroSoft的强大算力支撑

不过,DeepSeek 展示的低训练成本和高效推理,已经彻底打破了 OpenAI 曾经的技术壁垒。

未来,开源 AI 可能会加速挑战 OpenAI 的主导地位。

18 为什么大家对 DeepSeek 这么震惊?

有几个主要原因:

1. 中国的 AI 追赶速度远超预期

许多人以为中国的App实力比美国弱,但DeepSeek 证明中国可以在 AI 领域达到世界顶级水平

2. DeepSeek 训练成本远低于预期

低成本意味着更多企业可以进入 AI 竞争,OpenAI 的优势被削弱。

3. DeepSeek 证明了 AI 可以绕开美国芯片禁令

他们在受限的 H800 GPU 上实现了全球领先的 AI 模型,说明美国的芯片封锁可能效果有限。

19 芯片禁令还重要吗?

美国的芯片禁令的确延缓了中国 AI 的发展,但没有阻止它。

相反,DeepSeek 在受限条件下进行了极限优化,反而创造了更高效的 AI 训练方法。

不仅降低了 AI 训练成本,也让中国的 AI 能够在更弱的硬件上运行

从长期来看:

封锁可能会促使中国 AI 产业更加独立,开发自己的芯片。

美国如果不加快创新,而只是依靠封锁,可能会失去领先优势。

20 总结:DeepSeek 的意义是什么?

DeepSeek 改变了 AI 竞争的游戏规则:

1. 更低的训练成本 → AI 训练变得更便宜。

2. 更高效的推理 → AI 使用成本大幅下降。

3. AI 自我进化能力 → 迈向 AGI 的关键一步。

最终,AI 将变得更加普及,AI 服务几乎免费。

这将重塑整个科技行业,并彻底改变全球 AI 竞争格局。

参考链接:https://stratechery.com/2025/deepseek-faq/


来源:36kr

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-2-6 00:52 , Processed in 0.269038 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图