前两天,英伟达第三季度财报终于出了。结果是预期中的向好,营收351亿美金,同比增长93.7%。净利润193.1亿美金,同比增长109%。
简单计算就是上个季度英伟达共赚2542亿人民币,净利润1398亿,平均每天爆赚15亿人民币,相当于一天赚出8套北京价值2亿的四合院。
GPU的出现就象征着赚钱,三季度英伟达的毛利率高达74.6%。什么概念?被誉为“大自然的印钞机”、将钟睒睒捧上中国首富宝座的农夫山泉,毛利率也不过60%
英伟达的图形处理单元(GPU)技术之卓越,已广为人知。相较之下,国产 GPU 的影响力则显得较为有限。
然而,近年来,中国国内的许多GPU企业开始崭露头角。通过持续的投入和努力,国产GPU在性能、功能和应用领域等方面都有了提升,逐渐赢得了市场的认可和用户的信任。国产GPU不仅在传统图形处理领域取得了进展,也能够在人工智能、高性能计算等新兴领域展现出一定的竞争力。
01
景嘉微
景嘉微是国内自主常识产权图形GPU领军企业,是国内少数几家生产GPU且具有自主常识产权的企业。
景嘉微的GPU 产品包括 JM5400、JM7200、JM9 系列和景宏系列,覆盖传统领域和新兴领域。
JM5400是景嘉微早期推出的一款GPU产品,标志着国产GPU的起步;JM7200/7201系列适用于桌面办公、图形工作站及有高要求的图形生成及显示等领域。景嘉微在JM7系列时期已完成了与主流国产CPU与操作系统的适配工作。
JM9系列是景嘉微的第三代GPU产品,包括JM9100和JM92系列,它们在前两代的基础上进一步优化了性能与功耗,最低功耗不到2W,全面支撑国产CPU、国产操作系统和国产固件,可广泛应用于PC、笔记本电脑、工控机、图形工作站等计算机设备。
景宏系列是景嘉微今年成功研发的产品,主要用于AI 训练、AI 推理和科学计算等领域。根据公告,景宏系列支撑INT8、FP16、FP32、FP64等混合精度运算,支撑全新的多卡互联技术进行算力扩展,适配国内外主流CPU、操作系统及服务器厂商,能够支撑当前主流的计算生态、深度学习框架和算法模型库,大幅缩短用户适配验证周期。
02
天数智芯
天数智芯通用GPU产品适配主流CPU芯片/服务器厂商,能够支撑国内外主流AI生态和各种深度学习框架。天数智芯已经发布了两款自主研发的通用GPU产品天垓100、智铠100,具备应用覆盖广、开发易迁移、性能可预期、全栈可定制、使用成本低等特点。
天垓100是天数智芯推出的全自研通用GPU训练产品。它采用通用GPU架构,兼容国际主流GPU通用计算模型,支撑国内外主流AI生态和深度学习框架及原生算子。2022年底,天数智芯曾宣布天垓100累计销售订单已突破5亿元。
智铠100系列加速卡基于通用GPU架构,支撑多种视频规格解码、800+通用指令集、国内外主流深度学习开发框架。兼容CUDA生态,支撑市场主流生态,高达128路视频接入。平均迁移时间相较市场主流产品下降50%以上,生态应用迁移迅速。
天数智芯推出的国内首个通用计算应用开发及评测平台DeepSpark持续迭代,截至目前已汇聚300+训练和80+推理模型示例,支撑主流AI应用框架,提供多维度测评体系。
天数智芯自主算力集群方案能够有效支撑OPT、LLaMa、GPT-2、CPM、GLM等主流AIGC大模型的Pretrain和Finetune。同时适配支撑了清华、智源、复旦等在内的国内多个研究机构的开源大模型。
03
中微电
中微电的GPU产品有:南风一号、南风二号、南风三号。“南风一号”GPU主要应用于信创计算机显示可满足党政、金融及安防等信创产业链专用整机电脑PC显卡需求。“南风二号”提供高性能并行计算能力,满足服务器、训练机、推理机、边缘计算、科学仿真计算、智算中心等人工智能市场需求。
去年12月,中微电科技“南风一号”显卡(NF1001)导入了世恒TD120A2整机。标志着产品已经通过了中国长城各项功能、性能、可靠性、兼容性、稳定性等测试。“南风一号”也与麒麟操作系统(V10 SP1)、飞腾处理器(D2000、FT2000)、奇安信浏览器等多家国产设备、应用实现兼容性互认证。“南风一号”从“产品”正式转型为“商品”。
今年4月,中微电宣布“南风二号”核心IP研发完成,通过了FPGA的仿真测试。实验结果表明,“南风二号”AI推理性能达到48TOPS,基本实现了国家工业和信息化部揭榜挂帅项目和深圳市科技重大专项项目的参数指标。
04
芯动科技
芯动科技也推出了GPU产品:风华1号、风华二号。
风华一号发布于2021年,是首款国产高性能4K级显卡GPU。包括“风华1号”A型卡(单芯桌面端)、“风华1号”B型卡(双芯服务器端)两款,采用12nm制程工艺。支撑国产新基建5G数据中心、桌面、元宇宙、云游戏、云桌面等千亿级产业。
风华二号发布于2022年8月,是一款集超低功耗、强渲染、4K高清三屏显示、4K视频解码、智能AI计算于一体的桌面和笔记本GPU,采用自研LPDDR5X显存,带宽达到10Gbps,整卡实测功耗4~15W。
工控领域,芯动科技的风华 2 号 GPU 已在各大城市轨道交通系统的自动售检票系统中实现大规模商用。该系统中的自动检票机、自动售票机和半自动售票机等设备,采用风华 2 号 GPU 后,可支撑 4 屏显示和长时间低功耗高稳定运行,
消费电子领域,天天电竞发布的国潮电竞专业显卡品牌 “赤兔”,搭载了芯动科技自研的风华 GPU 芯片。
05
沐曦集成
今年9月,沐曦集成近期完成了新一轮股权融资,参与此次投资的机构包括浦东创投集团、上海科创基金、湘江国投、启夏资本、中卫颐和及上海源庐加佳信息科技有限企业等多家知名投资方。
目前沐曦集成电路的GPU产品包括:曦思N系列、曦云C系列、曦彩G系列。
曦彩G系列GPU是针对图形渲染加速的解决方案,沐曦自主常识产权架构提供卓越的图形图像渲染与视频处理能力, 可广泛应用于元宇宙、云桌面、云游戏、云手机、数字孪生、XR等场景。
曦思N系列首款产品曦思 N100是一款面向云端数据中心应用的人工智能推理GPU,自2022年底产品量产以来,已在智慧交通、智慧安防、智能转码等人工智能领域获得广泛应用。沐曦集成与眸瑞科技联合发布的“贴图超分”技术,依托曦思N系列AI推理GPU的强大算力,首次将AI超分成功应用到了3D模型领域。
曦云C系列通用GPU(GPGPU)芯片是针对智算及通用计算的完美解决方案,沐曦自主常识产权架构提供强大高精度及多精度混合算力,可广泛应用于智算以及通用计算、教育和科研等场景。曦云C500单卡算力高达30TFlops FP32,单卡64GB HBM2E高带宽显存,带宽1.8TB/s,这张卡还配备自研MetaXlink高速接口,适合于大模型训练。4卡既可以支撑65B大模型推理,8卡可以支撑130B模型推理。
2023 年,沐曦携手智谱华章、优刻得共同发布了国产首台 GPU 千亿参数大模型训推一体机。首批客户是北京航天总医院、数字宁夏建设运营有限企业。
06
登临科技
登临科技成立于2017年,目前Goldwasser系列产品已经实现规模量产,团队致力于以GUGPU为核心构建高性能计算平台。
Goldwasser 系列产品:包括边缘计算产品 Goldwasser UL,功率 25-35W,INT8 算力 32-64TOPS;半高半长的服务器计算卡 Goldwasser L,功耗 40-70W,提供 128-256TOPS 算力;另有一种全高全长的 Goldwasser XL,输出 512TOPS 算力。
该企业最引人注意的地方是,声称其自主创新的通用GPU 具有“与 CUDA/OpenCL 等编程模型兼容的计算架构”,使其能够很好地与 Nvidia 竞争,但同时也可能利用 Nvidia 最大的竞争优势——CUDA 与之对抗。
据称,在首代Goldwasser产品量产后一年内,登临科技完成国内主流运营商、操作系统、CPU、互联网企业、人工智能框架、服务器企业的兼容互认证,并发布登临瀚海生态计划。
登临科技创始人李建文、登临科技联合创始人王平本硕均就读于清华大学,全球运营副总裁杨剑曾任HUAWEI全球供应链副总裁,其研发团队拥有长期的GPU研发和商业产品化经验。此外,登临科技在硅谷、成都、杭州等城市共设立了七个研发中心。
07
壁仞科技
壁仞科技创立于2019年,致力于研发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。目前,壁仞科技首款国产高端通用GPU壁砺系列已量产落地。
BR100系列通用GPU芯片是国内算力最大的通用GPU芯片,包括BR104和BR100两大产品。基于自主原创的芯片架构开发,采用7纳米工艺制程,并结合了包括Chiplet(芯粒技术)等在内的多项业内前沿芯片设计、制造与封装技术。其中BR104对标英伟达2020年推出的A100、BR100对标英伟达4nm芯片H100。
此外,壁仞科技还推出了“壁砺”系列算力产品,这些产品进一步丰富了壁仞科技的GPU产品线,满足了不同客户和应用场景的需求。
壁仞科技与浪潮科技合作推出了搭载 BR100 的 OAM 服务器 “海玄”,其峰值浮点算力达 8PFLOPS,最大功耗为 7KW,为数据中心提供了高能效、低 TCO(总拥有成本)的数据中心集群方案,可满足数据中心对大规模数据处理和高性能计算的需求,支撑云计算、大数据分析、人工智能等多种应用的运行。
08
摩尔线程
最近,证监会官网显示,摩尔线程智能科技(北京)股份有限企业(下称摩尔线程)在北京证监局办理辅导备案登记,正式启动A股上市进程,辅导机构为中信证券股份有限企业。
摩尔线程也是国内仅有的在B端和C端均有布局的国产GPU企业,其芯片采用先进MUSA架构。
目前产品有MTT S系列显卡、MTT系列GPU芯片、智算集群解决方案。MTT S系列显卡包括MTT S80、MTT S70、MTT S50、MTT S3000、MTT S4000。
MTT S80被称为“国产游戏第一卡”,是国内唯一可以支撑DX12的消费级显卡。发布至今,该卡的Windows驱动已经迭代多个版本,已实现国内TOP50热门游戏100%兼容,已追踪超过400款游戏的运行情况,累计正式适配和优化游戏185款。截至2024年10月,MTT S80在图形测试App3DMark 11中的成绩,已提升至4.5倍。
MTT系列GPU芯片包括:苏堤、春晓、曲院。苏堤是中国首颗全功能GPU芯片,曲院则是基于摩尔线程自研架构的最新一代全功能GPU芯片,能够提供人工智能所需的综合算力,尤其是针对大语言模型训练和推理的处理能力。
此外,针对大模型训练,摩尔线程已经落地了全国产的夸娥(KUAE)智算中心全栈解决方案,从千卡智算集群到万卡集群方案。
09
结语
从目前的情况来看,部分国产 GPU 产品在性能上已经取得了一定进步,如壁仞科技的 BR100 系列 GPU,其峰值算力超过了英伟达目前在售的旗舰计算产品 A100 GPU 的三倍,并创造了全球通用 GPU 的算力记录,能够满足一些对算力要求较高的应用场景需求。
同时,一些国产 GPU 芯片采用了先进的制程工艺和封装技术,在提升性能的同时,有效降低了功耗。例如芯动科技的风华 2 号,在低功耗模式下工作功耗仅在 4w 左右,能效比远优于市场同等算力产品。
越来越多的国产 GPU 厂商意识到生态建设的重要性,并积极与上下游企业、科研机构等展开合作,共同构建完整的产业生态。如摩尔线程与众多行业合作伙伴联合展示了基于其智算集群的丰富行业大模型应用方案,推动了国产 GPU 在各领域的应用和发展。
与英伟达、AMD 等国际巨头相比,国产 GPU 在整体技术水平上仍存在一定差距,特别是在高端 GPU 市场,国外产品在性能、能效比、功能完整性等方面仍占据优势。但千锤百炼,方成正果。国产GPU的发展进程,也是其不断追求技术进步的历程。
|