Kotonia
ログイン今すぐ始める

Kotonia Articles

从3万日元的Chromebook到96GB GPU——五年不放弃的故事

一位个人开发者从3万日元的Chromebook起步,历经五年,最终购入96GB VRAM的RTX PRO 6000 Blackwell GPU。本文记录了他从Colab凑合、AI创业受挫、到自购GPU的历程,以及96GB如何改变他的开发能力。

作者 4分钟阅读
#个人开发#GPU#AI#随笔#职业
其他语言日语

RTX PRO 6000 Blackwell Max-Q 入手了。96GB VRAM、Blackwell 世代、面向专业工作站的 GPU。对于个人来说,这显然是一笔巨大的开销。

这既不是 GPU 的开箱记录,也不是基准测试文章。而是关于我如何花了五年时间才走到这一步,以及买下它之后发生了什么变化的故事。

关于“96GB 能设计出什么”的技术实测,我另写了一篇文章,基于服务栈进行了测量。这篇,则是那之前漫长时光的故事。

用3万日元的Chromebook学习

我学习编程时用的机器,是一台3万日元的Chromebook。

对当时的我来说,那是唯一能买得起的现实机器。但对于想做 AI 的人来说,3万日元的 Chromebook 实在太弱了。

别说本地 LLM,就连稍微重一点的开发环境都吃力。我一边想着“总有一天,想要一台像样的 GPU”,一边度过了相当长的时间。

在Colab上凑合的日子

我也用过 Google Colab。用免费额度或便宜的 GPU,勉强尝试了一些像样的东西。

选择能跑的模型,写能跑的代码,做能跑的实验。

但那始终是一种“凑合”的感觉。真正想碰的东西跑不动,稍微贪心一点就崩溃,会话会断开,每次都要花时间搭建环境。

借来的 GPU、借来的时间、借来的实验场所。感觉就像把自己的梦想寄托在别人的便利上。

这期间 AI 飞速发展。GPT 出现了,LLM 爆发式普及,开源模型也越来越强。时间线上,总有人用强大的机器尝试开源模型并分享见解。

我也想去那边。

进了AI创业公司,但……

我好不容易进了一家 AI 创业公司。但公司的氛围相当糟糕,不是能继续待下去的环境。

即使技术有趣,如果环境崩坏,人也会崩坏。明明终于接近了 AI,却在那里被一点点消耗。

不过,对 AI 本身的兴趣并没有消失。反而“想在自己的环境里做”的念头更强烈了。

成为自由职业者后,终于能考虑投资了

之后我成了自由职业者,大约半年后,终于开始考虑“为自己做一次大投资”。

那时,我脑海中第一个浮现的就是 GPU。

按理说,有无数更稳妥的花钱方式:存款、税金、生活应急资金、工作用电脑的升级。但多年来一直因为“机器太弱”而放弃的事情,如果在这里又说“总有一天会买”,那个“总有一天”又会变得遥遥无期。

不过,在这个时间点决定买 GPU,背后还有更复杂的原因。

买之前的我,相当低谷

把时间往回拨一点。

买这台机器前不久,我的主力产品还是高质量头像对话,使用的 GPU 是 RTX 4000 Blackwell,VRAM 24GB。当时支持的 TTS 引擎比现在多,为了塞进去,我拼命量化、尝试用 TensorRT 编译。即便如此还是不够,不得不忍痛隐藏了多语言性能出色的 Qwen3-TTS。一直是在和 VRAM 战斗。

好不容易发布了。但 PV 几乎为零。用户也是零。

与此同时,我也尝试了副线计划:面向小型餐饮店和诊所的语音预约自动化销售。但结果惨不忍睹。现在想想也是理所当然——去向“自动化会让电话接线员失业的人”推销这个产品,本身就是矛盾的销售。连和经营者好好说话都做不到,成果为零。只有精神被消耗殆尽。

很不甘心。我对语音部分的 UX 很有信心。因为有 ReAct 代理的基础,不仅能处理简单预约,还能应对复杂任务。即使以某语音 Lab 提供的 API 十分之一的价格提供,利润率也超过 90%。从技术上看,我看不到自己会输的理由。——正因为近乎执念地投入,不被认可的不甘才格外强烈。

(那段时间的副产品,比如自动拨号系统,留在了手边。现在想来,那些辛苦并没有完全白费。)

连演示都没人听

在那期间,我决定在所属的工程师朋友群里做一次演示。打算提议请他们帮忙吸引关注。

但结果——似乎没人感兴趣。甚至表现出“连演示都不想听”的态度。

说实话,很受打击。竟然到了这种地步?我的人望就这么差吗?真是跌到了谷底。

“红海没有胜算”“设计太简陋”——各种所谓的反馈都有。

但是,我想。连演示都不听,这种肤浅的声音,还不足以让我的产品动摇。

那天,我退出了那个群。差不多算是闹翻了。然后我决定更专注于这个产品。下定决心买下170万日元的 GPU,也是在那天。

颤抖着手指下单

按下购买按钮时,手在发抖。“真的要买吗?”“这正常吗?”“失败了怎么办?”

转账时,银行怀疑我,交易被冻结了。也难怪,突然要买这么贵的 GPU。但对我来说,这是在赌上人生的某些东西,所以被阻止的那一刻相当焦虑。

折腾了一番,最终还是买到了。到手的那一刻,我觉得这不仅是 GPU,更是我没有放弃的时间的结晶

意外的惊喜

如果故事到这里就结束,那只是一个孤独决别的故事。

但,有个意外。

退出群之后,他们中的一个人联系了我。听了我的决心后,他说:

“既然这家伙要赌上人生去挑战,那我也只能帮忙了。”

然后,他就直接跳进了项目。新成员加入了。

就像《火焰之纹章》里,之前还是敌人的背叛剑士,在某一章突然加入我方时的那种——久违的兴奋感。

一个人没有放弃的结果,就是这块 GPU。而因为决定不放弃继续前进,回来的,是这个伙伴。

即便如此,我不想只把它当成一个煽情的故事

我不想以“买了真好”就结束。所以,我认真用数字验证了这 96GB 在个人开发中能实现什么。

只写一个对我而言具有象征意义的瞬间。

运行语音角色扮演和从分镜自动生成视频的管道。一个请求,就能让本地 LLM、图像生成、TTS、唇形同步、视频生成在时间轴上依次触发。如果 reviewer 说“这个场景重来”,就全部重新调用。能否在不每次重新加载模型的情况下运行这个反馈循环,是 24GB 时代无论如何也跨不过去的墙。

换到 96GB 后,让所有模型常驻,运行分镜生成时,VRAM 几乎没动。+1.9 GiB。所有模型保持 warm,只有计算在跑。那一刻,我意识到“买的不是容量,是常驻”。

这些实测数据(idle 基线、生成一段视频时的 VRAM 峰值、与本地 LLM 共存、以及 96GB 也无法跨越的边界线)都写在技术篇里,附有追踪图像。

五年后,我拿到了96GB VRAM —— 代理循环能跑起来的 GPU 的故事(技术篇)

能做什么了

买下后的几周内,已经跑起来的东西。

  • Kotonia(语音角色扮演) — VAD + STT + LLM + 多语言 TTS + Ditto 唇形同步的实时对话。主业产品。
  • 分镜 → 视频自动生成管道 — 从一个想法到 5 beat 结构的短视频,几分钟内完成。
  • HiDream Studio(免费公开中) — OpenWeight 最高水平的图像生成,在 96GB GPU 上常驻运行。
  • Codex CLI + 本地 Gemma 4 — 将兼容 OpenAI 的本地 LLM 作为子代理,API 零费用运行 CLI agent。

这些,在借来的 GPU 上都是“总有一天”的事。

总结

大约五年里,我一直说“机器太弱,做不到”。现在,这句话正在一点点成为过去。

GPU,只是计算资源。但对我来说,它也是没有放弃的时间的具象化。接下来,是用它来做什么。

试试 Kotonia →

Kotonia 将语音 AI、AI 聊天、图像生成和团队协作整合到一个 AI 工作区中。

试用 Kotonia