查看: 486|回复: 3

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet [复制链接]

tayun

军衔等级：

中尉

注册：2015-11-14 点赞数

2

发表于 2024-12-27 12:37:02 |显示全部楼层

还没等到官宣，Deepseek-v3竟意外曝光了？！

据Reddit网友爆料，v3已在API和网页上发布，一些榜单跑分也新鲜出炉。

在Aider多语言编程测试排行榜中，Deepseek-v3一举超越Claude 3.5 Sonnet，排在第1位的o1之后。

（相比Deepseek-v2.5，完成率从17.8%大幅上涨至48.4%。）

且在LiveBench测评中，它是当前最强开源LLM，并在非推理模型中仅次于gemini-exp-1206，排在第二。

目前Hugging Face上已经有了Deepseek-v3（Base）的开源权重，只不过还没上传模型先容卡片。

综合网上多方爆料来看，Deepseek-v3相比前代v2、v2.5有了极大提升——

与v2、v2.5配置对比

首先，Deepseek-v3基本配置如下：

采用685B参数的MoE架构；
包含256个专家，使用sigmoid函数作为路由方式，每次选取前8个专家 (Top-k=8)；
支撑64K上下文，默认支撑4K，最长支撑8K上下文；
约60个tokens/s；

BTW，在Aider测评中击败Claude 3.5 Sonnet的还是Instruct版本（该版本目前未发布）。

为了进一步了解Deepseek-v3的升级程度，机器学习爱好者Vaibhav (VB) Srivastav（以下简称瓦哥）还深入研究了配置文件，并总结出v3与v2、v2.5的关键区别。

与v2（今年5月6日官宣开源）比较的结果，经AI整理成表格如下：

可以看出，v3几乎是v2的放大版，在每一项参数上均有较大提升。

而且瓦哥重点指出了模型结构的三个关键变化：

第一，在MOE结构中，v3使用了sigmoid作为门控函数，取代了v2中的softmax函数。这允许模型在更大的专家集合上进行选择，而不像softmax函数倾向于将输入分配给少数几个专家。

第二，v3引入了一个新的Top-k选择方法noaux_tc，它不需要辅助损失。

简单理解，MoE模型通常需要一个辅助损失来帮助训练，主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本。

而新方法能在不依赖辅助损失的情况下，直接通过主要任务的损失函数来有效地选择Top-k个专家。这有助于简化训练过程并提高训练效率。

对了，为便于理解，瓦哥用DeepSeek逐步说明了这一方法。