大模型落地，苦「最强」久矣 [复制链接]

see122

军衔等级：

少校

发表于 2024-12-19 23:37:35 |显示全部楼层

「第一」「最强」叙事，是对复杂场景的简单化。

编辑 | Cynthia

编辑| 郑玄

没有刷不了的榜，只有还没 over-fitting 的数据集；

没有搞不定的第一，只有还没加够 XX 领域，XX 尺寸，XX 语言的限定词。

尽管自 2012 年深度学习复苏之日起，AI 打榜就成为了行业默认惯例，但历来如此，就是真的正确吗？

去年 9 月，一篇 LLM 味爆棚的反讽文章，在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》，（别搞大模型了），你只需要在测试集上预训练就够了。

吐槽了市面上层出不穷的各种大模型测试榜单之外，这篇论文，直白点名了 phi-1、TinyStories 和 phi-1.5 几个大模型在明目张胆搞榜单造假。

比如，使用测试集中数据提问 phi-1.5，模型会立即给出一个精准的回复，但只要改变一个数字或者改变一下数据格式，回答立即变得牛头不对马嘴幻觉频出。

原因很简单，为了刷榜，模型对 MMLU、GSM8K、Big-Bench、AGIEval 等公开数据集，做了针对性训练。

过拟合的 A 面，是让模型在打榜过程中取得了人人都是大模型第一的地位，B 面则是，模型的泛化能力被极大削弱，失去了大模型应有的创造与思考的能力。

大模型落地，苦「第一」久矣。尽管，这已经成为大模型产业心照不宣的秘密。

那么，「第一」真的代表更强的能力吗？所谓的最强大模型真的存在？行业落地，又到底需要怎样的标准？

或许，前赴后继的刷榜本质，是独属于大模型产业的强者傲慢。

01

最佳大模型的傲慢与偏见

一定程度上，基准测试失真，于大模型而言，表面上看是标准问题，实际上是宣传问题，本质上则是如何落地的商业模式难题。

Scaling law 的主导下，进入万亿参数时代的大模型强者恒强成为唯一的生存密码：根据公开信息披露，仅 GPT4 就有约 1.8 万亿参数，其训练过程，需要消耗约 2.15e25 FLOPS 算力，更直观来说，需要约 25,000 个 A100 GPU，马力全开，训练足足 100 天。以云上每个 A100 GPU 每小时 1 美金来算，理想情况下，一次训练的成本就需要花费至少 6000 万美金。

与此同时，头部大模型玩家，平均两个月左右，就会迎来一次技术或产品的迭代；而形成鲜明对比的是，国内的大模型六小龙，即使如今估值最高的智谱，算上最新一轮融资，其总融资额，也不过 55 亿。

一边是不断膨胀的参数，不断增加的成本；一边是盲盒黑箱式的技术原理，与用户之间的不断加深的认知壁垒。如何在这场强者恒强的生存竞赛中证明自己的价值，打榜自然也就成了最直观的捷径。

但这一切的前提是，大模型落地，真的存在所谓的最强大模型吗？

答案或许是否定的。

技术落地与研究不同，具体到场景之中，强如 Open AI、GOOGLE与 Anthropic 也不得不面临技术、时延和成本之间的不可能三角。因此面对不同需求，往往对应着不同的最优解法：其中 Anthropic 的 Claude 分为增强版 Sonnet 与轻量版 Haiku；GPT 4o 分为标准版与 mini 版；GOOGLE Gemini 则分为增强的 Pro 版与尝鲜的 Flash 版。

而一个违背直觉的数据是，各大模型的增强版与 mini 版，在实际部署中，往往是拥有更低时延与低成本优势的 mini 版本，会更受欢迎。

即使单纯聚焦到技术的单一维度，「最强模型」也同样是个伪命题。在相对客观的物理、化学和生物学、数学、天文等科目中，各家大模型评分往往各有千秋；而一旦将视角转为写作、绘画、视频生成，那么如何评定最优大模型，1000 个读者有 1000 个哈姆莱特。

作为全球最大的云服务平台，AMAZON云科技，就曾注意到：在AMAZON云上，不同开发者往往会关注不同性能，比如，有人会关注更低的延迟、更低的成本，有人更关注模型是否具备微调能力、能更好地协调不同常识库以固定数据，还有团队更关注模型的多模态能力，或者常识扩散迁移能力。

也是因此，什么才是所谓的最强大模型，在一轮轮热潮中，这个话题被反复讨论、被热议、被反思，但从来未被解决。

但可以肯定的是，任何单一维度的「第一」「最强」叙事，都是对复杂场景的简单化。

02

Choice is All You Need

「最强」=无敌，只是技术至上者的傲慢，以及对用户真实需求的偏见，这一点已经在无数行业中被反复证实。

二十一世纪初期，许多经济学家、产业学家，在观察了日本一众历史优势产业的发展之后都发现了一个怪状：

无论电视机，亦或半导体，乃至汽车，日本无疑是「最强」叙事的顶级推崇者，以及最佳实践案例，但最终的解决却无一例外，集体走向没落。

比如，日本的电视，在显像管时期做到画质最高，却在短短几年被更轻薄的液晶打败；日本面向大型机时代研发的存储芯片，一度做到保质期 30 年，却在消费电子浪潮中被韩国SAMSUNG质量参差不齐的低价「次品」打败；日本的汽车，在燃油车时代无疑是最耐用、最保值的代名词，甚至是新能源时代，也一步到位发展了最清洁的氢能源燃料电池，却唯独错过了近十年来最大的汽车产业变革热潮——电动化。

为什么「强者」最先被淘汰？生物学家给出了解答——日本产业，陷入了加拉帕戈斯陷阱，一个在如加拉帕戈斯群岛般单一的环境中进化出的「最佳」，往往在面对复杂的真实场景与需求会显得格格不入，乃至不堪一击。

相比「最佳」，行业更需要的是，需求被看见，过程有的选，结果更适合。

就像数据库领域，即使传统的 SQL 数据库已经常年占据统治地位，依然会有各种各样的 noSQL 数据库冒出，甚至在 noSQL 数据库还会区分出图数据库、文档数据库等不同类型。

AI 框架，也是个最好的例子，TensorFlow 之前，cafe 就足以满足市场的需求，但此后 TensorFlow 出现，一统天下，然而，没几年后，PyTorch 就横空出现，从学术领域出发逆袭，成为一代新的框架之王，但与此同时，TensorFlow 以及其他小众 AI 框架，依旧在工业领域占据相当的市场份额。

套用大模型 er 们的经典句式——Choice is All You Need。

AMAZON CEO Andy Jassy 在不久前的举办的一年一度的云服务 re:Invent 大会上，就分享了这样一个观察：

「在AMAZON内部，所有开发者都有自主选择的权利，原本以为大家都会选用 Anthropic 的 Claude 模型，毕竟过去一年多它在全球属于性能顶尖的模型，确实有很多内部开发者在使用 Claude 模型，但他们也会采用 Llama 模型、Mistral 模型，还会运用自己开发的一些模型，甚至会使用自行研发的模型。」

比如，金融行业更需要内容生成的绝对准确性；大部分企业，则需要在性能与成本之间，做反复的平衡。甚至，同样是绘画，在诸如还原山海经之类场景中，大模型幻觉就是产生想象力的最佳礼物；而在绘制写实风漫画或人物建模，任何的幻觉都会带来最终结果的灾难性失控。

既然评判的标准五花八门，那么与其替用户选择，不如给足用户选择。

03

AMAZON云科技的 Choice matters

事实上，让客户有的选，是各大公有云厂商都在宣传的口号。但何谓有的选，选择的范围如何，背后的定义却往往各有千秋。AMAZON云科技无疑是其中，最开放、最激进的一个。

在AMAZON云科技，有的选，可以被解读出三重含义。

第一重，性能还是成本，用户有的选。

re:Invent 期间，AMAZON云科技推出全新发布的自研 Nova 基础模型，一共包括 Micro、Lite、Pro、Premier 四个版本。其中，可以做到 210 tokens/s 的亚马逊 Nova Micro 是纯文本模型，主打高效级；其余三大多模态大模型中，Lite 主打轻量级，Pro 主打平衡，旗舰模型亚马逊 Nova Premier，则主要用于应对复杂任务。

第二重，AMAZON云科技 or 其他，用户有的选是最高原则。

相比自研的 Nova 基础模型，如何支撑更多的模型上架AMAZON云科技，才是这场大会真正的主角。

通过将电商中的货架概念用在了云服务与大模型，AMAZON云科技的大模型货架亚马逊 Bedrock 不仅上架自家的 Nova 系列，同时还上线了AMAZON投资的 Anthropic 的 Claude 系列。

此外，亚马逊 Bedrock 提供 Meta 的 Llama、AI21 Labs 的 Jurassic、Mistral AI、Technology Innovation Institute 的 Falcon RW 1B 和英伟达 NIM 微服务等 100 多种业内一流的大模型。

不仅是通用大模型，金融领域的 Palmyra-Fin，翻译明星 Solar Pro，多模态方向的 Stable Diffusion 、音频生成方向的 Camb.ai，生物学方向的 ESM3 生成式生物学模型，也全部在亚马逊 Bedrock 上架。

主打一个从自研到第三方，从文本到多模态，从通用到垂直，只要用户需要，亚马逊 Bedrock 应上尽上。

当然，不只是有的选，最重要的也就是第三层，AMAZON云科技不仅要让客户有的选，更能低成本的选。

如果只是上架第三方模型，那么行业内大部分公有云企业都能做到。

但如何避免云服务企业又做选手又做裁判还当发令员，能够真正做到不偏心自研产品，以用户需求为导向，还需要观察云服务企业究竟如何设计用户选择的门槛。

首先是定价，如何在AMAZON云科技销售模型，定价由模型提供商自行设置。

与此同时，为了降低用户使用大模型的成本以及选择难度，亚马逊 Bedrock 还提供了自定义微调和模型蒸馏（Model Distillation）功能以及多智能体协作工具（Multi-agent collaboration）、自动推理检查（Automated Reasoning checks）等功能。

一方面，帮助企业更好的选择合适的模型，另一方面，加速不同的模型与智能体之间的高效协同。

当然，这种有的选，不止体现在模型侧，在算力、数据库领域同样如此。

比如，在算力上，AMAZON云科技会提供不同层级的 EC2 实例，用户可以根据自身的计算需求选择标准服务器或者更强大的 UltraServer，不必受限于单一芯片平台或算力方案。

数据库方向，AMAZON云科技打破 CAP「困境」，推出无服务器分布式 SQL 的数据库亚马逊 Aurora DSQL 以及完全托管的无服务器 NoSQL 数据库亚马逊 DynamoDB global tables，敬重客户真正的需求。

从模型到算力再到数据库，一切决策的最高原则都是「Choice matters」，让用户去自由决策。

04

尾声

在经济学中，有一个有趣的悖论叫古德哈特定律。

其提出背景是，一旦大家过度关注乃至管理一个经济指标时，往往会为了达成这一指标而扭曲真实目的，以至于牺牲其他方面的利益，以至于指标本身失效。

AI 领域同理，当参数与性能变成唯一指标，其强大的扭曲力场会让真实的用户需求被忽略。

尽管，用 AI 替代客服所以更关注成本，用 AI 帮助手残画出想要的画面所以更关注多模态能力，用 AI 帮助企业完成质检优化所以更关注效率这样无数的细小变革，才是 AI 改变世界的真正组成。

而在这一过程中，用户的真实需求被看见，被敬重，有选择，正是一切进步发生的基础。

*头图来源：视觉中国

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

大模型跑分会成为一门生意吗？

马斯克：创业成功的原因是因为我可以判断员工是否擅长工程设计。

点赞关注极客公园视频号，

来源：网易

举报本楼

本帖有 3 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2025-4-22 11:25 , Processed in 0.244313 second(s), 18 queries , Gzip On.

Discuz Licensed

回顶部

XML 地图 | Sitemap 地图

		自动登录	找回密码
密码			注册