只需一步,快速开始
短信验证,便捷登录
军衔等级:
少尉
DeepSeek 推理模型 R1:正面硬刚 OpenAI o1,不仅性能媲美,还彻底开源。 DeepSeek 千亿参数模型 V3:训练成本仅 557 万美金,比 GPT-4便宜 10 倍。
低成本、高效率:DeepSeek 训练 V3 的总算力仅 278.8 万 GPU 小时,相比 OpenAI 和 谷歌 的动辄数十亿美金投入,展现出 AI 训练成本大幅下降的可能性。 芯片禁令:DeepSeek 的诸多创新,正是为了克服 H800 相较于 H100 的内存带宽劣势。如果 DeepSeek 能够使用 H100,他们会选择更大的训练集群,而不是针对 H800 进行如此极致的优化。 AI 自主进化:DeepSeek 的 R1-Zero 依靠纯强化学习(RL),无需人工标注,就能自己学会推理和优化答案。 开源冲击波:与 OpenAI 越来越封闭的策略相反,DeepSeek 选择开放权重,这一决定或将引发 AI 研究范式的重大转变。
经典强化学习的例子是 lphaGo,DeepMind 仅告诉 AI 围棋的规则,并设置了“获胜”作为奖励函数,然后 AI 自己摸索出最佳策略。 但 LLM(大语言模型)通常需要 RLHF(人类反馈强化学习),因为人类需要引导它们做出更自然、连贯的回答。
“顿悟时刻”发生在模型的中间训练阶段。 在这一阶段,DeepSeek-R1-Zero 逐渐学会为某些问题分配更多的思考时间,通过重新评估初始解法来寻找更好的答案。 这种现象不仅证明了模型推理能力的成长,也展现了强化学习如何带来意想不到的复杂智能行为。
传统观点认为,AI 需要人类引导才能学会推理。 但 R1-Zero 只需要大量计算资源和奖励函数,就能自己学会推理!
举报本楼
发表回复 回帖后跳转到最后一页
版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图
GMT+8, 2025-2-6 00:58 , Processed in 0.276849 second(s), 16 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed