查看: 536|回复: 0

Grok-3：性能更强但真有新突破？ [复制链接]

tayun

军衔等级：

上尉

注册：2015-11-14 点赞数

4

发表于 2025-2-20 08:39:16 |显示全部楼层

2月19日消息，美国时间周一，埃隆·马斯克（Elon Musk）旗下的人工智能初创企业xAI发布了其最新大模型Grok-3。该企业不仅演示了新模型的强大性能，还展示了由20万块GPU组成的计算集群，预示着更大的野心。

在发布会上，马斯克及其团队重点强调了Grok-3强大的计算能力、基准测试表现以及即将推出的功能，尽管多数演示内容与竞争对手已实现的功能高度相似。

xAI发布会初段的焦点并非人工智能本身，而是名为“巨像”（Colossus）的超级计算集群，该集群由20万块GPU组成，为Grok-3的训练提供算力支撑。该系统分两个阶段完成：首先在10万颗GPU上进行了122天的同步训练，随后又用了92天逐步扩展到20万颗GPU上。xAI团队坦言，构建这一基础设施比开发人工智能模型本身更具挑战性。

xAI已经计划打造一个更强大的GPU集群，马斯克表示他们的目标是当前容量的五倍，这将使其成为世界上最强大的GPU集群。

在性能方面，Grok-3在标准AI基准测试中表现出色。基础模型（未嵌入思维链与推理模块的标准版）稳居数学（AIME）、科学（GPOA）与编程（LCB）测试榜首，其盲测表现同样亮眼。

xAI证实，此前代号为“Chocolate”的神秘模型实为Grok-3的早期测试版，该版本曾被上传至LLM Arena平台。在这些测试中，它在所有大语言模型中获得了最高的ELO评分，这意味着用户更喜欢Grok-3的回答，而非其他人工智能模型生成的答案。此评估方式的独特价值在于：模型无法通过针对性训练在基准测试中“作弊”，其结果完全基于数千匿名用户的盲测偏好。

Grok-3的"推理测试版"（Reasoning Beta）通过内置思维链处理模块与测试阶段额外算力投入，将数学成绩提升至新高度——在AIME 2025基准测试中得到93分，而其他表现最佳的模型得分均低于87分。

值得注意的是，Grok-3 Mini推理测试版虽规模较小，却因更长的训练时长在部分场景下反超标准版。换句话说，完整版的Grok-3在获得更多训练后仍有提升空间，考虑到其更大的参数量，这似乎很有潜力。

不过当进入现场演示环节时，Grok-3的表现更像是技术追赶而非突破创新。xAI团队展示了模型解决物理问题和从头编写游戏代码的能力，但ChatGPT、Claude和GOOGLE的Gemini等竞品早在数月前就已实现。

新工具，旧范式

xAI同步推出深度搜索（DeepSearch）研究代理系统。该工具运作机制与OpenAI及GOOGLE服务类似，可实现全网信息抓取并生成多维度主题分析报告。

X Premium Plus订阅用户现已开放Grok-3基础版访问权限，但高阶版本与迭代更新将独家部署于独立app或Grok.com平台。

未来几周内，xAI将推出类似于OpenAI“高级语音模式”的语音交互功能。马斯克特别强调此非传统文本转语音（TTS）技术，而是一个真正的AI语音模型，能够实现自然、富有表现力的语音交互。

开发者将在未来几周内获得API访问权限以及音频转录功能，这将使Grok-3成为第三方AI驱动应用程序的强大工具。

值得关注的是，在演示Grok-3生成《俄罗斯方块》游戏代码后，xAI还透露计划成立一个AI游戏工作室，让开发者能够利用Grok-3构建游戏。

目前，Grok-3模型正在逐步推出。一些爱好者已经抢先体验，并对结果表示满意。

计算机科学家莱克斯·弗里德曼（Lex Fridman）是人工智能领域最具影响力的人物之一，他对Grok-3的能力给予了高度评价。他写道：“我开始大量使用Grok 3（早期）。我惊呆了，这个模型给人留下了非常深刻的印象。祝贺马斯克及其团队将它变为现实。”

其他人则将Grok-3与市场上的领先竞争对手进行了比较。OpenAI前联合创始人安德烈·卡帕西（Andrej Karpathy）在社交媒体上发帖称：“Grok 3 + Thinking的表现接近OpenAI最强模型（o1-pro，200美金/月）的顶尖水平，略优于DeepSeek-R1和Gemini 2.0 Flash Thinking。我要向xAI团队表示热烈祝贺，他们显然拥有巨大的发展速度和势头。”

X用户Penny2x分享了一个由Grok-3从头构建的游戏——一个类似于《超级马里奥兄弟》的2D平台游戏。他对Grok理解指令并通过多次迭代改进的能力印象深刻。该游戏可以在Thank Doge平台上进行测试。

Penny2x在帖子中写道：“我只需要不断提出调整要求，它就会生成一个独立的游戏文件，我可以直接放在桌面上运行。这简直太不可思议了。大家生活在未来，现在每个人都可以成为开发者。”

xAI还证实，计划在Grok-3完全成熟并稳定运行后几个月后，将Grok-2开源。此前，xAI已在Grok-2之后开源了其初代模型，延续了通过发布旧版本激发创新的趋势，尽管Grok-2的性能仍落后于顶级模型。

目前，Grok-3似乎已经能够做到顶级人工智能模型所能做到的事情。真正的考验将在未来几周内到来，届时xAI将推出其承诺的语音功能、游戏工具和API访问权限。现在，压力来到了OpenAI这边，该企业即将发布GPT-4.5。（小小）

来源：网易

举报本楼

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2025-2-22 02:14 , Processed in 0.136415 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册

Grok-3：性能更强 但真有新突破？ [复制链接]

Grok-3：性能更强但真有新突破？ [复制链接]