C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  少尉

注册:2007-10-294
发表于 2025-2-5 14:46:07 |显示全部楼层

亚星游戏官网-yaxin222


AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的编辑是李锡涵(Xihan Li)。他是伦敦大学学院(UCL)计算机系博士研究生,GOOGLE开发者专家,主要研究方向为学习优化,在 NeurIPS、ICLR、AAMAS、CIKM 等会议发表过学术论文,Circuit Transformer 编辑,图书《简明的 TensorFlow 2》(https://tf.wiki)编辑。
过年这几天,DeepSeek 算是彻底破圈了,火遍大江南北,火到人尽皆知。虽然网络版和 APP 版已经足够好用,但把模型部署到本地,才能真正实现独家定制,让 DeepSeek R1 的深度思考「以你为主,为你所用」。
关于本地部署,大多数人使用的是蒸馏后的8B/32B/70B版本,本质是微调后的Llama或Qwen模型,并不能完全发挥出DeepSeek R1的实力。
然而,完整的671B MoE模型也可以通过针对性的量化技术压缩体积,从而大幅降低本地部署门槛,乃至在消费级硬件(如单台Mac Studio)上运行。
那么,如何用 ollama 在本地部署 DeepSeek R1 671B(完整未蒸馏版本)模型呢?一篇在海外热度很高的简明教程即将揭晓。
亚星游戏官网-yaxin222


  • 编辑主页:https://snowkylin.github.io
  • 原文地址:https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html
本地部署后,让 DeepSeek R1 「数草莓」视频链接:
https://mp.weixin.qq.com/s/GnHzsgvW90DGChENqTBsRw?token=1784997338&lang=zh_CN
模型选择
原版 DeepSeek R1 671B 全量模型的文件体积高达 720GB,对于绝大部分人而言,这都大得太离谱了。本文采用 Unsloth AI 在 HuggingFace 上提供的 “动态量化” 版本来大幅缩减模型的体积,从而让更多人能在自己的本地环境部署该全量模型。
“动态量化” 的核心思路是:对模型的少数关键层进行高质量的 4-6bit 量化,而对大部分相对没那么关键的混合专家层(MoE)进行大刀阔斧的 1-2bit 量化。通过这种方法,DeepSeek R1 全量模型可压缩至最小 131GB(1.58-bit 量化),极大降低了本地部署门槛,甚至能在单台 Mac Studio 上运行!
根据我自己的工作站配置,我选择了以下两个模型进行测试:
  • DeepSeek-R1-UD-IQ1_M(671B,1.73-bit 动态量化,158 GB,HuggingFace)
  • DeepSeek-R1-Q4_K_M(671B,4-bit 标准量化,404 GB,HuggingFace)
Unsloth AI 提供了4 种动态量化模型(1.58 至 2.51 比特,文件体积为 131GB 至 212GB),可根据自身硬件条件灵活选择。建议阅读官方说明了解各版本差异。
  • Unsloth AI 官方说明:https://unsloth.ai/blog/deepseekr1-dynamic
硬件需求
部署此类大模型的主要瓶颈是内存+显存容量,建议配置如下:
  • DeepSeek-R1-UD-IQ1_M:内存 + 显存 ≥ 200 GB
  • DeepSeek-R1-Q4_K_M:内存 + 显存 ≥ 500 GB
大家使用 ollama 部署此模型。ollama 支撑 CPU 与 GPU 混合推理(可将模型的部分层加载至显存进行加速),因此可以将内存与显存之和大致视为系统的 “总内存空间”。
除了模型参数占用的内存+显存空间(158 GB 和 404GB)以外,实际运行时还需额外预留一些内存(显存)空间用于上下文缓存。预留的空间越大,支撑的上下文窗口也越大。
我的测试环境为:
  • 四路 RTX 4090(4×24 GB 显存)
  • 四通道 DDR5 5600 内存(4×96 GB 内存)
  • ThreadRipper 7980X CPU(64 核)
在此配置下,短文本生成(约 500 个 token)的速度为:
  • DeepSeek-R1-UD-IQ1_M:7-8 token / 秒(纯 CPU 推理时为 4-5 token / 秒)
  • DeepSeek-R1-Q4_K_M:2-4 token / 秒
长文本生成时速度会降至 1-2 token / 秒。
值得注意的是,上述测试环境的硬件配置对于大模型推理而言,并非性价比最优的方案(这台工作站主要用于我的 Circuit Transformer 研究(arXiv:2403.13838),该研究在上周于 ICLR 会议接收。我和我的工作站都可以休息一下了,于是有了这篇文章)。
下面列举一些更具性价比的选项:
  • Mac Studio:配备大容量高带宽的统一内存(比如 X 上的 @awnihannun 使用了两台 192 GB 内存的 Mac Studio 运行 3-bit 量化的版本)
  • 高内存带宽的服务器:比如 HuggingFace 上的 alain401 使用了配备了 24×16 GB DDR5 4800 内存的服务器)
  • 云 GPU 服务器:配备 2 张或更多的 80GB 显存 GPU(如英伟达的 H100,租赁价格约 2 美金 / 小时 / 卡)
若硬件条件有限,可尝试体积更小的 1.58-bit 量化版(131GB),可运行于:
  • 单台 Mac Studio(192GB 统一内存,参考案例可见 X 上的 @ggerganov,成本约 5600 美金)
  • 2×Nvidia H100 80GB(参考案例可见 X 上的 @hokazuya,成本约 4~5 美金 / 小时)
且在这些硬件上的运行速度可达到 10+ token / 秒。
部署步骤
下列步骤在Linux环境下实行,Mac OS和Windows的部署方式原则上类似,主要区别是ollama和llama.cpp的安装版本和默认模型目录位置不同。
1. 下载模型文件
从 HuggingFace (https://huggingface.co/unsloth/DeepSeek-R1-GGUF)下载模型的 .gguf 文件(文件体积很大,建议使用下载工具,比如我用的是 XDM),并将下载的分片文件合并成一个(见注释 1)。
2. 安装 ollama
  • 下载地址:https://ollama.com/
实行以下命令:
curl -fsSL https://ollama.com/install.sh | sh
3. 创建 Modelfile 文件,该文件用于引导 ollama 建立模型
%E

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-2-6 00:57 , Processed in 0.139562 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图