Kotonia
ログイン今すぐ始める

Kotonia Articles

16 个核心久违地全力嘶吼的那天 — DDR5 涨价潮里在家跑准前沿 OW 模型,MoE 时代 CPU+RAM 的复权

在自家 RTX 6000 + 128GB RAM 的机器上跑 DeepSeek-V4-Flash (284B MoE / 13B active),发现满 GPU 跟 CPU offload 的速度差只有两倍。不用上 RTX PRO 6000 这种重型卡也能在家跑准前沿 OW 模型。但 2026 年的 DDR5 涨价让原本估算的 2 万元预算变成了 3.5 万——「内存才是主要开支」成了这篇文章意外的新角度。

作者 7分钟阅读
#llm#moe#deepseek#独立开发#本地llm#self-hosting
其他语言日语英语

打开系统监视器,发现 16 个 CPU 核心几乎全部贴到 100%。这种景象好久没看到了。

平时这台工作机 (RTX PRO 6000 Blackwell Max-Q + RTX PRO 4000 BW + 16 核 / 128GB RAM),CPU 是不会这样嘶吼的。出图、出视频、出声音,全都甩给 GPU,CPU 只负责 I/O 协调和预处理。

然后我点了一下 DeepSeek-V4-Flash 的启动,全部核心瞬间满载。「在以 GPU 为中心的世界里,CPU 又重新登场了」——这种小小的违和感,是这篇文章的起点。


1. 我到底在做什么

今早把内存升到 128GB,重启了机器。「128GB 的话,应该能把 DeepSeek-V4-Flash 的大部分专家用 CPU offload 跑起来」——抱着这个念头随手试一下。

DeepSeek-V4-Flash 是 2026 年 4 月发布的 OW Mixture-of-Experts 模型,284B total / 13B active,1M context,MIT 协议。和同时期的 GLM-5.2 (~750B/40B active)、Kimi K2.6 (1T/32B active) 一起,是目前 OW 最强一档的代表。

云 API 价格是 $0.14/M input,做成商业产品的部分早就标准化了。但要把这一级别的模型 跑在家里,就是另一回事。

模型total / activeIQ2_XXS GGUF在家能跑吗
DeepSeek-V4-Flash284B / 13B~73 GiB能跑 ← 这次
GLM-5.2~750B / 40B~239 GiB没 256GB RAM 不行
Kimi K2.6 (INT4 native)1T / 32B~250 GiB同上
Qwen3-235B-A22B235B / 22B~70 GiB能跑,但智能比 V4-Flash 差

也就是说,284B / 13B active 这个量级,差不多就是「个人机器能装下的 OW 智能上限」。再大的就得砸 256GB RAM 的投资。

2. 把 OW 用 Agentic Index 摆一遍,V4-Flash 的独特位置就显出来了

下面是 Artificial Analysis 最新的 Agentic Index (GDPval-AA v2 + τ³-Banking 的平均),OW 排名长这样:

Artificial Analysis Agentic Index (Open Weight)

光看数字:

排名模型Agentic Indextotal / activeIQ2 GGUF
1GLM-5.2 (max)43.1~750B / 40B~239 GiB
2DeepSeek V4-Pro (Max)36.41.6T / 49B~430 GiB
3MiniMax-M335.4428B / 23B~110 GiB
4DeepSeek V4-Flash (Max)31.1284B / 13B~74 GiB
5Kimi K2.630.31T / 32B native INT4~250 GiB
6GLM-5.129.9(上一代)
7MiMo-V2.5-Pro29.1
8Nemotron 3 Ultra27.4
9Qwen3.5 397B A17B19.8397B / 17B~100 GiB
10Mistral Medium 3.519.0
11Gemma 4 31B14.431B dense~20 GiB
12gpt-oss 120b (high)13.2120B / 5.1B~30 GiB

但只要加一层约束 ——「家用 128GB RAM 配置 (2026-06 当下因 DDR5 涨价基本上要 3.5 万元档),能不能用得动 (10 tok/s 以上)」——图就完全变了:

模型在家 128GB RAM 上能跑吗Agentic Index
GLM-5.2 (43.1)❌ swap 抖动,1-3 tok/s43.1
V4-Pro (36.4)❌ 内存根本不够36.4
MiniMax-M3 (35.4)△ 卡边缘,KV + working buffer 一上就 OOM35.4
V4-Flash (31.1)128GB 还能剩 50GB,实测 11.8 tok/s31.1
Kimi K2.6 (30.3)❌ 至少要 256GB+30.3
Gemma 4 31B (14.4)✅ 能跑,但智能差太多14.4

也就是说 「在家 3-4 万元档能实际跑动的 OW 里,Agentic Index 最高的就是 V4-Flash」。光看 31.1 是第 4 名,但只要加上「上面 3 个家里跑不动」这个条件,V4-Flash 就 实质性地升到第一

这是个人开发者现在面对的真实选择,性价比的最佳点就压在 V4-Flash 身上。

3. MiniMax-M3 跟 V4-Flash,分水岭在哪

顺便看一下 第 3 名的 MiniMax-M3 (428B / 23B active,2026 年 6 月发布)。它的 Agentic Index 比 V4-Flash 高 4.3 分,编程基准 (SWE-Bench Pro 59.0%) 上甚至超过了 GPT-5.5 / Gemini 3.1 Pro。作为单纯的模型评估,M3 明显更强。

但只要进了家用机的话题,分水岭就一目了然:

  • 总参数 428B vs 284B → IQ2 下 110 GiB vs 74 GiB
  • active 23B vs 13B → 每个 token 在 CPU 上要算的量 多 1.8 倍
  • 128GB RAM 的情况下:M3 加上 KV cache + working buffer 就 OOM 边缘出局,V4-Flash 还能留 50GB 余量

要在家舒服地跑 M3,得把 RAM 升到 192GB 或 256GB。一年前这块投入还是 5000-7000 元的事,2026 年 6 月已经变成 再加 10000-15000 元。墙变得比从前更高了。

也就是 「在 128GB RAM 这条线上,刚好能踩进去的 OW 是 V4-Flash」。M3 已经掉到线的那一头去了,而且 DDR5 涨价让这个差距变得更扎心。

这是「性价比最强」这个词难得能成立的一种场景——上面的智能分数都在收敛,只有 内存占用这一项还保持着尖锐的差异

4. 「16 个核心嘶吼」到底是怎么回事

MoE 模型的推理跟传统 dense 模型本质不同。

DeepSeek-V4-Flash 有 284B 参数,但 生成一个 token 实际只用 13B 的权重。256 个 expert 里,每次只选 6 个去算;剩下的 250 个跟当前 token 无关,留在内存里待命就行。

这里就出现了一个战略分叉:「权重放 GPU,还是放 CPU 这边的 RAM」

  • 全放 GPU:VRAM 需要 74 GiB。RTX PRO 6000 (96GB) 够。普通的 RTX 5090 (32GB) 完全不行。
  • 只把 expert 放 CPU RAM (-cmoe 路线):VRAM 只需要 7 GiB。普通的 RTX 5070 级 (16GB) 也能装下 attention 部分。代价是要 128GB RAM,且 每一个 token 都要在 CPU 上算 13B 的 expert weight

选第二种配置,CPU 的所有核心就要真刀真枪干起来。llama-server-t 16 把 16 个线程全压到 expert 计算上。这就是我今早看到的「16 个核心 100% 贴满」的真相。

「CPU 又重新成主角了」是当下的第一反应,但更冷静的说法是:GPU 和 CPU 进入了分工时代

5. 硬件配置与复现成本

把我这台机器的实际配置,跟「最小可复现的准前沿 LLM 盒子」并排放一下:

部件我的配置最小复现配置2026-06 估价
GPURTX PRO 6000 BW Max-Q (96GB)RTX 5070 (16GB) 就够约 6500 元
内存32GB × 4 = 128 GB32GB × 4 = 128 GB约 15,000-22,000 元 ← 涨疯了
CPURyzen 9 (16 核)Ryzen 9 7900X (12 核) 即可约 4000 元
主板 + 电源 + SSD + 机箱(略)一整套约 3500 元
合计约 3.0-3.6 万元

说实话,最初动笔写这篇文章时,我预算的是 2 万元能搞定。但 2026 年开始的 DDR5 涨价潮 把这个估算冲烂了。详情下一章细说,32GB DDR5 单条 $375 (约 2700 元),比一年前的 $80-120 涨了 400% (Tom's Hardware, 2026-06)。

不过结构性的结论依然成立:「不用买 RTX PRO 6000 这种 100 万元级重型卡,总预算 3 万多元就能在家跑准前沿 OW」。变化是 主要开支从 GPU 转移到了 RAM,这本身就成了 MoE 时代的一个独立故事。

下面有一个值得强调的发现。

6. 满 GPU 跟 CPU offload 的速度差 比想象的小

今天测的数据,相同的 DeepSeek-V4-Flash IQ2_XXS-XL GGUF,相同的 prompt (Fibonacci 任务,~800 token 生成),只改拓扑:

拓扑VRAMRAM 占用gen tok/s
满 GPU (GPU0 单卡, KV fp16)76 GiB16 GiB20.0 ← 最快
满 GPU (multi-GPU split)76 + 11 GiB16 GiB13.6 (PCIe split overhead)
满 GPU (KV q8_0)76 GiB16 GiB16.3 (反而变慢)
CPU MoE (-cmoe)7 GiB76 GiB11.8 ← 普及档目标

这里最值得强调的是 「20 tok/s vs 12 tok/s」这个差距,比直觉小得多

V4-Flash IQ2 量化是 74 GiB。RTX PRO 6000 (96 GB VRAM) 装得下整个,所以可以吃满 VRAM 带宽 1700 GB/s。理论上限约 430 tok/s。

但实测只有 20 tok/s = 理论的 5%。为什么?

答案是 「llama.cpp 的 cchuter fork 还是 WIP」。DeepSeek-V4 引入了 MLA / CSA / HCA / Lightning Indexer / Hyper-connection / Gated Delta Net 等大量自研 op,对应的 CUDA kernel 都还没调好。DeepSeek 自家的 inference 栈 (FlashMLA + DeepEP + DeepGEMM) 能跑出量级以上的差距,但第三方 llama.cpp 还停在「让它跑」的阶段,没走到「让它快」的阶段。

也就是说,GPU 的真实能力没被榨出来,所以跟 CPU offload 的差距才被压小了

这是一个 「时间会解决」 的问题。

等 cchuter fork 合入 upstream 主线,CUDA kernel 调好之后,满 GPU 大概率能上 50-100 tok/s 档。但 CPU offload 这边,IQ2 dequant kernel 和缓存局部性这块还能再榨 +50% 出来,最终的比例其实说不准。

「现在的对决是 20 tok/s vs 12 tok/s,所以买重型 GPU 的差异化理由很薄」——这是当下个人开发者要面对的现实。

7. 为什么 MoE 时代 CPU+RAM 会「复权」

dense 模型 (Llama 3 70B 等) 时代,每一步推理都要读取全部 70B 权重。带宽是真正的瓶颈,必须是 GPU 的 HBM3e (3-5 TB/s) 才有资格上桌。CPU 的 DDR5 带宽 ~100 GB/s,慢了 30-50 倍。

MoE 时代规则换了。

  • V4-Flash 是 284B total,但 active 只有 13B
  • 1 token = 13B 量级的内存访问
  • CPU DDR5 上,13B × 2 bpw (IQ2) = ~3 GB/token

理论上 100 GB/s ÷ 3 GB = 33 tok/s 应该能跑得到。实测 11.8 tok/s,因为还要加上 CPU 的实际计算量 (dequant + matmul),但量级是对得上的。

也就是说,MoE 其实是 「把带宽需求砍到原来 1/20」 的一项发明。这把 CPU 和 GPU 的差距从「数量级」拉回到 「2-3 倍」

但这里有个讽刺的现实。

128GB RAM 现在已经不是「3000 元就能买到」了。

32GB DDR5-5600 × 4 ≈ 1.5-2.2 万元 (2026-06)

一年前 32GB 一条 $80-120 (~600-900 元),128GB 凑齐大概 3500-5000 元能搞定。然后 2026 年的 AI / 服务器需求把 DDR5 价格直接拉高 400%,现在 32GB 单条 $375 (约 2700 元),128GB 要 1.5-2.2 万元。业界共识:缓解要等到 2027-2028 年才有望 (Tom's HardwareTechTimes)。

也就是说:「MoE 让 CPU+RAM 终于能跟 GPU 一较高下了 → 紧接着 AI 需求把 RAM 价格也拉到天上」——两头同时被挤。

不过换个角度看,这其实是市场在说 「对 MoE 推理来说,内存值得 GPU 级别的资本投入」。「两块 RTX 5070 Ti 的钱,全部花在内存上」——这种说法三年前会被嘲笑,MoE 时代的今天对个人开发者来说也变成了合理选择。

把主要开支从 GPU 移到 RAM —— 这就是 MoE 时代硬件投资新的优先级。

8. 实际能用来做什么

11.8 tok/s 配 256K context,确实慢。比 GPT-5 / Claude Opus 那种 80-150 tok/s 慢了 8 倍。实时对话肯定不行。

但只要场景挑对了,依然能落地。

「不需要超快」的场景

  • TRPG / 小说模式后端:作为推动故事进展的引擎,等思考 30-90 秒是可以接受的,甚至有「在认真想」的氛围。256K context 足以一次装下世界观、人物、历史
  • ReAct 智能体:每步 100-300 token 的话 5-15 秒,工具调用循环 5 步加起来不到 1 分钟。普通 ReAct 范围内可以接受
  • 长上下文摘要/分析:输入 32K 文档一次性总结,等 1 分钟换来高质量产出,划算

不适合的场景

  • 实时对话 (TTFB 5-30 秒)
  • 批量代码生成 (单文件 30 分钟换 GPT-5 的 1 分钟,不划算)
  • 对延迟敏感的工具 (搜索补全等)

也就是 「把 latency-tolerant 的高级推理放在自己机器上跑,API 成本为零」——这是核心价值。对有隐私要求的场景 (咨询、辅导、内部文档分析),自有推理的优势会更突出。

9. DeepSeek「把困难输出出去」的战略

顺便讲个技术层面的有趣观察。

DeepSeek 每次发布 (V2 → V3 → V3.2 → V4) 都会把新的架构 以 OW 形式公开论文和权重,但自家的 inference 始终跑在 自有优化 kernel (FlashMLA / DeepEP / DeepGEMM) 上。第三方每次追平大概要 3-6 个月。

可以这样读:这是把一种商业模式 写在架构层面上强制实现——「要吞吐量请买云 API,只要智能可以把权重抱回家」。

V4 的 Lightning Indexer / Hyper-connection / Gated Delta Net 在论文层面都很漂亮,但要写出调好的 CUDA kernel 真的费工夫。第三方刚做到「让它跑」,DeepSeek 已经把 V5 发布了。

「公开论文和权重,卖优化好的 kernel」 这种模式,跟 Anthropic / OpenAI 的路子完全不同,但同样具有持续性。作为个人开发者,这种思路里能学的东西不少。

10. 已上线:kotonia.ai 的 Code chat / Creative Studio 里 V4-Flash 作为 WIP 选项可选

最后说一下。今天的实验已经作为 WIP 选项推到 kotonia.ai 生产环境。

/chat/code (Code chat) 和 /chat/studio (Creative Studio) 的模型选择里,「DeepSeek V4 Flash (Local, $0, ~5-12 tok/s, WIP)」 已经可以选。选了之后,请求经过 Cloudflare Tunnel 打到我这台机器,16 个 CPU 核心就会真的开始嘶吼。

速度是已经认了的代价,所以现状是「即使慢也想试一下准前沿 OW」的用户的选项。等 llama.cpp 的 V4 支持合入主线、CUDA kernel 也调好之后,这个选项的速度会自然上来。

先把一个能动的版本放出去,让用户 能真的摸一下。这是个人开发者对前沿 OW 能做的现实贡献。


写在最后

「3-4 万元在家跑准前沿 OW」这个命题,三年前还是 「不可能」 的。MoE 架构的普及,加上 llama.cpp 系开源工作的推进,把它变成了现实。DDR5 涨价让原本期待的「2 万元搞定」目标没达成,是有点遗憾。但「能跑」和「跑不动」的差距,比「2 万」和「4 万」的差距大得多。

速度还不算完美,但 「能跑」和「跑不了」的差距,比「快」和「慢」的差距大得多

更何况,看着自己 16 个核心久违地全力嘶吼,那种「投资在意想不到的方向上结了果」的心情,对个人开发者来讲是真的舒服。一台为 GPU 而买的机器,被 MoE 时代拉出舞台中央的 CPU+RAM 回报了一下。

为某个理由买的硬件,偶尔会以完全不同的形式焕发第二春。

Kotonia 将语音 AI、AI 聊天、图像生成和团队协作整合到一个 AI 工作区中。

试用 Kotonia