C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  中校

注册:2015-11-149
发表于 2025-4-14 20:09:08 |显示全部楼层

刚刚,Gemini 2.5 Pro编程登顶,6美金性价比碾压Claude 3.7 Sonnet。不仅如此,GOOGLE还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。

GOOGLE,彻底打了一场漂亮的翻身仗。
aider多语言编程基准测试显示,Gemini 2.5 Pro近出世半个多月,编程能力已经是全球第一,口碑一众超越Claude 3.7 Sonnet。
不仅如此,除了DeepSeek,它的性价比也是最优的,成本低至6美金。

亚星游戏官网-yaxin222


为了强调Gemini 2.5 Pro成本优势,Jeff Dean还附上了超详细TOP 10模型的成本图。

他骄傲地表示,「有些性能不怎么样的模型,还要比Gemini 2.5贵上2倍、3倍,甚至是30倍」。

亚星游戏官网-yaxin222


亚星游戏官网-yaxin222


原本,以强大编程能力著称的Claude,成为广大开发者的主战场。如今有了Gemini 2.5,AI编程将会上演一场史上最大的「迁徙」。

更令人欣喜的是,Gemini 2.5 Pro还不是编程最强的那个。

这几天,竞技场上,突然现身多款据称是GOOGLE开发的模型,包括Nightwhisper、Dragontail等,编程能力让人惊艳。

亚星游戏官网-yaxin222


网友实测发现,毫不夸张地说,Dragontail编程能力足以摧毁Gemini 2.5 Pro。

亚星游戏官网-yaxin222


虽不知这款模型具体何时面世,但显然GOOGLE还有很多惊喜在等着大家。另一边,奥特曼也在今日凌晨,下达战书——

亚星游戏官网-yaxin222


传说中的GPT-4.1、满血版o3、o4-mini大概率会发布


预计本周,AI圈又将是一场恶战。

Gemini 2.5 Pro编程霸榜,性价比最优

3月25日官宣,Gemini 2.5 Pro半个多月里,各种精彩实测让其在全网的热度一直居高不下。

最新aider基准测试,又为这款模型添上了一把火。官方接续Jeff Dean的图,做了一张更加直观可视化的表。

Aider Polyglot基准测试是评估AI模型在多语言编程能力上的重要指标,涉及C++、Go、Java、JavaScript、Python和Rust等多种编程语言。

亚星游戏官网-yaxin222


看得出,o1是十款模型中,最贵的那个(186.5美金),其次是Claude 3.7 Sonnet(32k thinking token)成本为36.83美金。

再之后,就是o3-mini、Claude 3.7 Sonnet(no thinking)、DeepSeek R1+Claude 3.5 Sonnet。

这些模型成本高不说,多语言编程能力还不如Gemini 2.5 Pro。

而且,GOOGLE第七代TPU也在发挥最大的效用了,能够加速Gemini 2.5 Pro token的处理速度。

亚星游戏官网-yaxin222


在网友实测的demo中,Gemini 2.5 Pro在单次编程提示中,表现非常出色——创建一个随着音律跃动的3D星球。

亚星游戏官网-yaxin222


GOOGLE产品负责人Logan Kilpatrick忍不住美言了几句,「想要找到这样既前沿,又具性价比的模型,真的太难了。Gemini 2.5 Pro真的是特别的那一款」。

亚星游戏官网-yaxin222


一直以来,Anthropic没有解决Claude速率限制问题,还推出了每月200美金付费计划,在开发者心中大打折扣。

亚星游戏官网-yaxin222


GOOGLEGemini 2.5 Pro凭借卓越的多语言编程能力,和超高的性价比,再次证明了GOOGLE在AI领域的深厚实力。

GOOGLE在AI领域全面获胜

如今看来,在这场AI激烈竞赛中,能全面Scaling的科技大厂,唯有GOOGLE了。

Gemini 2.5 Pro Experimental是全球最优秀的AI模型,OpenAI和Anthropic目前都毫无胜算。

亚星游戏官网-yaxin222


它在LMArena、GPQA Diamond、人类终极测试以及AIME等多项权威测评中,均排名第一。

在Aider Polyglot、Live Bench等非公开基准测试里也名列前茅。

在《宝可梦》游戏测试中,它的表现优于Claude Sonnet。此外,它在创意写作方面也有不错的表现,尤其是长文本理解能力。

亚星游戏官网-yaxin222


更重要的是,Gemini 2.5 Pro Experimental的基准测试成绩,与实际使用体验、专业测评反馈高度吻合。

大量用户反馈,Gemini 2.5 Pro Experimental确实是当下最强的AI模型。

这种情况在竞争激烈的AI行业实属罕见。

亚星游戏官网-yaxin222


此外,它速度快、成本低,GOOGLE甚至为用户提供免费使用权限。

它的上下文窗口多达100万个token,并与GOOGLE庞大的产品生态紧密相连。

亚星游戏官网-yaxin222


即将发布的Gemini 2.5 Flash是Gemini 2.5 Pro的「姊妹版本」,同样表现出色。

它运行速度极快且成本极低,比竞争对手的同类模型便宜得多。

Gemini 2.5 Flash非常适合应用于边缘计算场景,也便于集成到手机设备中。

亚星游戏官网-yaxin222


Gemma 3是GOOGLE推出的开源模型,在性能上能与Llama 4、DeepSeek-V3等顶尖开源模型相媲美。

在性能和成本这两个关键指标上,GOOGLE的Gemini 2.0/2.5系列(包括Pro和Flash版本)占据着Pareto最优前沿。

这意味着GOOGLE性能最强的模型,成本控制得也很好;性价比最高的模型,性能同样出色。

这使其成为预算有限的开发者、企业和初创企业的理想选择。

亚星游戏官网-yaxin222


在其他生成式AI领域,GOOGLE同样占据着主导地位。

GOOGLE宣布,将把旗下的Lyria、Imagen 3、Veo 2和Chirp 3等AI工具整合到Vertex AI平台。它们在各自领域都是世界一流水平。

在智能体领域,开启深度研究模式的Gemini 2.5 Pro,表现比OpenAI的深度研究功能强一倍。

亚星游戏官网-yaxin222


Gemini与OpenAI深度研究功能的对比


彩蛋:Dragontail

近期,网上流传着一款GOOGLE尚未正式发布的模型,代号「Dragontail」。

据称其在Web开发领域表现惊艳,甚至超越了旗舰模型Gemini 2.5 Pro。

Dragontail最早出现在WebDev Arena(https://web.lmarena.ai/)的测试环境中。

经开发者测试发现,在生成复杂用户界面、多页面网站和交互式应用方面,其展现出的能力远超其他模型。

尽管GOOGLE尚未官方确认Dragontail,它在某些测试中自称是「由GOOGLE训练的LLM」,这与Gemini 2.5 Pro的回应一致。

人们猜测它可能是GOOGLE内部开发的下一代模型,或者Gemini系列的升级版本。

亚星游戏官网-yaxin222


Dragontail的实力究竟如何?根据测试者的反馈,这款模型在WebDev任务中的表现堪称碾压。

Dragontail在以下几个方面展现了绝对优势:

卓越的UI设计

Dragontail生成的UI元素,不仅功能完善,在布局、配色和交互性上也极具美感。

亚星游戏官网-yaxin222


比如,当要求生成一个带有复杂导航功能的零售网站时,Dragontail能输出整洁的代码,里面包含动态加载的商品列表、响应式设计,页面切换效果也很流畅。

相比之下,即使是当前WebDev排行榜上表现出色的Gemini 2.5 Pro Experimental,在细节处理上还是差了一点,偶尔会出现布局不够直观,或交互不够顺畅的问题。

功能实现的完整性

Dragontail生成的Web应用,功能实现上几乎没有瑕疵。

从前端的JavaScript逻辑,到后端的API集成,它都能给出生产级别的代码。

比如,开发者要求生成一个带有实时数据更新的仪表盘,Dragontail不仅完成了前端可视化,还自动生成了后端模拟数据接口。

Gemini 2.5 Pro在做类似任务时,往往需要额外的提示才能把逻辑补全。

代码质量与优化

Dragontail的代码风格规范,遵循现代Web开发的最佳实践。

它生成的React或Vue组件结构清晰,状态管理井井有条,还包含了错误处理和性能优化。

相比之下,Gemini 2.5 Pro虽然也能生成高质量代码,但在复杂项目中,偶尔会出现冗余代码,或者不必要的复杂逻辑。

测试者一致认为,Dragontail在视觉效果、功能完整性和用户体验方面全面领先。

让人怀疑,Dragontail是否代表了GOOGLE在Web开发AI领域的全新突破。

(注:基于WebDev Arena测试数据、开发者反馈及社交平台X上的讨论,部分信息尚未得到GOOGLE官方证实,具体细节以未来发布为准。)

参考资料:

https://x.com/paulgauthier/status/1911495784908177694

https://www.tealgorithmicbridge.com/p/google-is-winning-on-every-ai-front

https://www.reddit.com/r/Bard/comments/1jx6lr4/unreleased_google_model_dragontail_crushes_gemini/


来源:36kr

举报本楼

本帖有 4 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-4-19 11:04 , Processed in 0.249919 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图