C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  大校

注册:2007-1-278
发表于 2025-2-7 07:52:18 |显示全部楼层

1,专家混合架构(Mixture of Experts, MoE)‌:这是DeepSeek技术体系的核心亮点。MoE将复杂问题分解为多个子任务,由不同的“专家”网络处理。这些专家是针对特定领域或任务训练的小型神经网络,如语法、事实常识或创造性文本生成。MoE仅激活与当前任务相关的专家,这种选择性激活大幅降低了计算成本,同时提升了效率‌。

‌2,强化学习与奖励工程‌:DeepSeek在模型训练中广泛应用强化学习,通过试错机制和环境反馈优化模型的决策能力。此外,DeepSeek开发了一种基于规则的奖励系统,用于引导模型学习,提升了训练效率和逻辑推理能力‌。

‌3,常识蒸馏与模型压缩‌:DeepSeek采用常识蒸馏技术,将大型模型的能力压缩到更小规模的模型中。这种技术使得DeepSeek能够在硬件资源受限的情况下保持竞争力,部分模型参数仅为15亿,但仍能实行复杂任务‌。

‌4,开源策略‌:DeepSeek选择将其技术开源,包括代码和模型。这种策略不仅降低了用户进入门槛,还吸引了全球开发者社区的广泛参与,加速了技术迭代和生态系统建设‌1。

5‌,高效硬件利用‌:尽管受到美国芯片出口限制,DeepSeek通过优化算法和架构设计,充分利用现有硬件(如Nvidia A100芯片),大幅降低了训练成本‌。


举报本楼

本帖有 7 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-2-23 01:45 , Processed in 0.113163 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图