Kotonia Articles

从3万日元的Chromebook到96GB GPU——五年不放弃的故事

一位个人开发者从3万日元的Chromebook起步，历经五年，最终购入96GB VRAM的RTX PRO 6000 Blackwell GPU。本文记录了他从Colab凑合、AI创业受挫、到自购GPU的历程，以及96GB如何改变他的开发能力。

作者清水真二2026-05-284分钟阅读

#个人开发#GPU#AI#随笔#职业

其他语言日语

RTX PRO 6000 Blackwell Max-Q 入手了。96GB VRAM、Blackwell 世代、面向专业工作站的 GPU。对于个人来说，这显然是一笔巨大的开销。

这既不是 GPU 的开箱记录，也不是基准测试文章。而是关于我如何花了五年时间才走到这一步，以及买下它之后发生了什么变化的故事。

关于“96GB 能设计出什么”的技术实测，我另写了一篇文章，基于服务栈进行了测量。这篇，则是那之前漫长时光的故事。

用3万日元的Chromebook学习

我学习编程时用的机器，是一台3万日元的Chromebook。

对当时的我来说，那是唯一能买得起的现实机器。但对于想做 AI 的人来说，3万日元的 Chromebook 实在太弱了。

别说本地 LLM，就连稍微重一点的开发环境都吃力。我一边想着“总有一天，想要一台像样的 GPU”，一边度过了相当长的时间。

在Colab上凑合的日子

我也用过 Google Colab。用免费额度或便宜的 GPU，勉强尝试了一些像样的东西。

选择能跑的模型，写能跑的代码，做能跑的实验。

但那始终是一种“凑合”的感觉。真正想碰的东西跑不动，稍微贪心一点就崩溃，会话会断开，每次都要花时间搭建环境。

借来的 GPU、借来的时间、借来的实验场所。感觉就像把自己的梦想寄托在别人的便利上。

这期间 AI 飞速发展。GPT 出现了，LLM 爆发式普及，开源模型也越来越强。时间线上，总有人用强大的机器尝试开源模型并分享见解。

我也想去那边。

进了AI创业公司，但……

我好不容易进了一家 AI 创业公司。但公司的氛围相当糟糕，不是能继续待下去的环境。

即使技术有趣，如果环境崩坏，人也会崩坏。明明终于接近了 AI，却在那里被一点点消耗。

不过，对 AI 本身的兴趣并没有消失。反而“想在自己的环境里做”的念头更强烈了。

成为自由职业者后，终于能考虑投资了

之后我成了自由职业者，大约半年后，终于开始考虑“为自己做一次大投资”。

那时，我脑海中第一个浮现的就是 GPU。

按理说，有无数更稳妥的花钱方式：存款、税金、生活应急资金、工作用电脑的升级。但多年来一直因为“机器太弱”而放弃的事情，如果在这里又说“总有一天会买”，那个“总有一天”又会变得遥遥无期。

不过，在这个时间点决定买 GPU，背后还有更复杂的原因。

买之前的我，相当低谷

把时间往回拨一点。

买这台机器前不久，我的主力产品还是高质量头像对话，使用的 GPU 是 RTX 4000 Blackwell，VRAM 24GB。当时支持的 TTS 引擎比现在多，为了塞进去，我拼命量化、尝试用 TensorRT 编译。即便如此还是不够，不得不忍痛隐藏了多语言性能出色的 Qwen3-TTS。一直是在和 VRAM 战斗。

好不容易发布了。但 PV 几乎为零。用户也是零。

与此同时，我也尝试了副线计划：面向小型餐饮店和诊所的语音预约自动化销售。但结果惨不忍睹。现在想想也是理所当然——去向“自动化会让电话接线员失业的人”推销这个产品，本身就是矛盾的销售。连和经营者好好说话都做不到，成果为零。只有精神被消耗殆尽。

很不甘心。我对语音部分的 UX 很有信心。因为有 ReAct 代理的基础，不仅能处理简单预约，还能应对复杂任务。即使以某语音 Lab 提供的 API 十分之一的价格提供，利润率也超过 90%。从技术上看，我看不到自己会输的理由。——正因为近乎执念地投入，不被认可的不甘才格外强烈。

（那段时间的副产品，比如自动拨号系统，留在了手边。现在想来，那些辛苦并没有完全白费。）

连演示都没人听

在那期间，我决定在所属的工程师朋友群里做一次演示。打算提议请他们帮忙吸引关注。

但结果——似乎没人感兴趣。甚至表现出“连演示都不想听”的态度。

说实话，很受打击。竟然到了这种地步？我的人望就这么差吗？真是跌到了谷底。

“红海没有胜算”“设计太简陋”——各种所谓的反馈都有。

但是，我想。连演示都不听，这种肤浅的声音，还不足以让我的产品动摇。

那天，我退出了那个群。差不多算是闹翻了。然后我决定更专注于这个产品。下定决心买下170万日元的 GPU，也是在那天。

颤抖着手指下单

按下购买按钮时，手在发抖。“真的要买吗？”“这正常吗？”“失败了怎么办？”

转账时，银行怀疑我，交易被冻结了。也难怪，突然要买这么贵的 GPU。但对我来说，这是在赌上人生的某些东西，所以被阻止的那一刻相当焦虑。

折腾了一番，最终还是买到了。到手的那一刻，我觉得这不仅是 GPU，更是我没有放弃的时间的结晶。

意外的惊喜

如果故事到这里就结束，那只是一个孤独决别的故事。

但，有个意外。

退出群之后，他们中的一个人联系了我。听了我的决心后，他说：

“既然这家伙要赌上人生去挑战，那我也只能帮忙了。”

然后，他就直接跳进了项目。新成员加入了。

就像《火焰之纹章》里，之前还是敌人的背叛剑士，在某一章突然加入我方时的那种——久违的兴奋感。

一个人没有放弃的结果，就是这块 GPU。而因为决定不放弃继续前进，回来的，是这个伙伴。

即便如此，我不想只把它当成一个煽情的故事

我不想以“买了真好”就结束。所以，我认真用数字验证了这 96GB 在个人开发中能实现什么。

只写一个对我而言具有象征意义的瞬间。

运行语音角色扮演和从分镜自动生成视频的管道。一个请求，就能让本地 LLM、图像生成、TTS、唇形同步、视频生成在时间轴上依次触发。如果 reviewer 说“这个场景重来”，就全部重新调用。能否在不每次重新加载模型的情况下运行这个反馈循环，是 24GB 时代无论如何也跨不过去的墙。

换到 96GB 后，让所有模型常驻，运行分镜生成时，VRAM 几乎没动。+1.9 GiB。所有模型保持 warm，只有计算在跑。那一刻，我意识到“买的不是容量，是常驻”。

这些实测数据（idle 基线、生成一段视频时的 VRAM 峰值、与本地 LLM 共存、以及 96GB 也无法跨越的边界线）都写在技术篇里，附有追踪图像。

→ 五年后，我拿到了96GB VRAM —— 代理循环能跑起来的 GPU 的故事（技术篇）

能做什么了

买下后的几周内，已经跑起来的东西。

Kotonia（语音角色扮演） — VAD + STT + LLM + 多语言 TTS + Ditto 唇形同步的实时对话。主业产品。
分镜 → 视频自动生成管道 — 从一个想法到 5 beat 结构的短视频，几分钟内完成。
HiDream Studio（免费公开中） — OpenWeight 最高水平的图像生成，在 96GB GPU 上常驻运行。
Codex CLI + 本地 Gemma 4 — 将兼容 OpenAI 的本地 LLM 作为子代理，API 零费用运行 CLI agent。

这些，在借来的 GPU 上都是“总有一天”的事。

总结

大约五年里，我一直说“机器太弱，做不到”。现在，这句话正在一点点成为过去。

GPU，只是计算资源。但对我来说，它也是没有放弃的时间的具象化。接下来，是用它来做什么。

试试 Kotonia →