整合 Qwen3-TTS + Irodori-TTS 的语音生成环境

Kotonia Voice 是集合了 Apache 2.0 / MIT 等 OSS TTS 模型的免费语音合成工作空间。可在同一界面切换专业角色话者、基于参考音频的声音克隆，以及基于文本描述的音色设计。

10 lang多语言朗读

3s克隆参考音频

Free本地 GPU 免费队列

10 种语言的高品质 TTS

通过 Qwen3-TTS 的 9 位品牌话者，实现日英中韩等 10 种语言的自然朗读。

提供 3 秒参考音频及其转写，即可用该声音朗读任意文本。

使用 Irodori-TTS，通过「低声女性，强压怒火」之类的 caption 生成声音。

采用分块流式输出，生成过程中即可开始播放，结束后可下载 WAV。

短视频旁白角色声音原型多语言内容配音声音样本收集 / A-B 比较

常规生成文本Qwen3-TTS CustomVoice。9 位品牌话者 x 10 种语言，可用 instruct 控制语气。

话者 (9 位)

语言

instruct (可选，语气指示)

速度 (0.7-1.3)1.00×

输出

生成后可在此播放 / 下载。

暂无生成历史。