C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  下士

注册:2019-9-114
发表于 2025-4-28 13:43:19 |显示全部楼层
本帖最后由 loveless_feng 于 2025-4-28 13:47 编辑

混合专家模型(MoE)
【转载是说芯语】这场热议始于4月27日的投资社区“韭研公社”,当“1.2万亿参数+97.3%成本降幅”的词条突然出现,立即引发技术圈与资本圈的双重震动。紧接着,X平台上知名科技博主的爆料、HuggingFaceCEO的神秘推文,让传闻热度呈指数级攀升。在技术论坛,开发者们围绕“混合专家模型(MoE)如何将万亿参数计算量压缩至百亿级”展开激烈讨论;在资本市场,“HUAWEI昇腾概念股”应声大涨,拓维信息等供应链企业单日涨幅突破10%,仿佛提前庆祝国产算力的突围时刻。
支撑者们看到了技术突破的曙光。QH大学AI实验室主任LH指出,R2采用的HybridMoE3.0架构通过动态激活机制,让1.2万亿参数的实际计算量降至780亿,这种“密度革命”比单纯堆砌参数更具技术价值。HUAWEI昇腾团队则透露,通过全互联集群设计与梯度压缩技术,昇腾910B芯片集群的算力利用率达到82%,首次在硬件效率上逼近英伟达A100水平。这些技术细节让人们相信,国产AI正在突破“卡脖子”困境。
但质疑声同样尖锐。某大厂CTO在公开场合直言,参数规模不等于技术实力,R2的多模态理解能力尚未通过第三方测评,“高幻觉率”和推理延迟问题仍是待解之谜。英伟达则从商业角度泼来冷水,指出昇腾芯片的App生态成熟度不足,企业迁移成本可能抵消硬件价格优势。这种立场分化,折射出AI产业深层的竞争格局——当开源模型(如Mistral、Llama)以“白菜价”冲击市场,闭源厂商的技术神话需要更扎实的落地数据支撑
核心逻辑暗合AI产业的两大趋势:参数效率化与算力国产化。DeepSeek的“1.2万亿参数”并非简单的规模扩张,而是通过MoE架构实现“动态激活”——就像图书馆里只有被借阅的书籍才被翻动,模型中仅7%的参数会在单次计算中被调用,既保持了常识储备的广度,又避免了算力浪费。这种思路与GOOGLEGLaM、MicroSoftMT-NLG等国际顶尖模型异曲同工,证明中国团队已掌握大模型架构创新的核心密码。
更引人注目的是算力国产化的突破。当英伟达H20芯片对华断供成为常态,DeepSeek选择完全搭载HUAWEI昇腾910B芯片,单卡成本降至A100的60%,并通过青海的数据中心集群获得20%的电价补贴。这种“硬件自主+政策红利”的组合拳,让训练成本从GPT-4o的2.6美金/百万token暴跌至0.07美金,真正实现了“让大模型训练从‘贵族运动’变为‘大众赛事’”。正如某著名投资人所言:“当算力成本不再是门槛,中小企业的AI创新将迎来黄金时代。”

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-4-29 04:49 , Processed in 0.354533 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图