当你还在为 TTS 部署发愁——显卡不够、延迟太高、模型太大跑不动的时候,OpenMOSS 团队给了你一个几乎不可能的答案:0.1B 参数,纯 CPU 可跑,还能流式输出 48kHz 立体声音频。
这就是 MOSS-TTS-Nano。
一句话概括
MOSS-TTS-Nano 是由模思智能(MOSI.AI)和 OpenMOSS 团队联合开源的多语言微型语音生成模型,核心目标只有一个:让 TTS 部署这件事变得足够简单。
核心特性
0.1B 参数,小到离谱
0.1B 参数是什么概念?当前主流开源 TTS 模型动辄数 GB,MOSS-TTS-Nano 的模型体量只有它们的几十分之一。这意味着:
- 不需要 GPU:4 核 CPU 就能跑流式推理
- 内存占用极低:连树莓派都有可能跑起来
- 部署成本近乎为零:任何一台普通电脑都能即开即用
48kHz 立体声输出
MOSS-TTS-Nano 不因为小就牺牲音质。它原生支持 48kHz 采样率、2 声道输出,这在同体量模型中极为罕见。配合 MOSS-Audio-Tokenizer-Nano(约 20M 参数),它可以将 48kHz 立体声音频压缩到 12.5Hz 的 token 流,使用 RVQ 16 层 codebook,实现从 0.125kbps 到 2kbps 的可变码率高保真重建。
20 种语言
支持中文、英文、日语、韩语、法语、德语、西班牙语、俄语、阿拉伯语、波斯语等 20 种语言,覆盖全球主要语种。对于需要多语言支持的应用场景,一个模型就够了。
零样本语音克隆
这是 MOSS-TTS-Nano 的杀手级功能。只需提供一段几秒钟的参考音频,就能克隆说话人的音色,无需任何微调训练。对话、旁白、配音——一段样本音搞定。
流式推理
低延迟首字响应,实时流式生成音频。对于对话机器人、语音助手等实时交互场景,这意味着用户几乎感觉不到等待。
长文本支持
支持长输入,内置自动分块的语音克隆机制。不用手动拆段,扔一整篇文章进去也行。
ONNX 版本:更快、更轻、更独立
2026 年 4 月 17 日,团队发布了 ONNX CPU 版本,这是一个重要的里程碑:
- 去除了 PyTorch 依赖:推理时只需要 ONNX Runtime,部署栈极其精简
- 处理效率近 2 倍提升:相比原始 PyTorch 版本
- 单核流畅运行:在 MacBook Air M4 上,单核 CPU 即可流畅推理
- 完整的语音克隆工作流:支持参考音频输入、内置音色、实时流式解码
ONNX 模型托管在 Hugging Face:
浏览器插件:MOSS-TTS-Nano-Reader
更狠的是,基于 ONNX 版本,团队还做了 MOSS-TTS-Nano-Reader——一个浏览器扩展,模型直接在浏览器里跑,不需要任何本地推理服务。
这意味着什么?用户安装一个 Chrome 扩展,选中网页文字,右键一按,AI 就用你选定的音色把文字读出来。不需要服务器,不需要 API Key,不需要显卡。
快速上手
PyTorch 版本
conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano
git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano
pip install -r requirements.txt
pip install -e .
# 语音克隆推理
python infer.py \\
--prompt-audio-path assets/audio/zh_1.wav \\
--text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"
ONNX 版本(推荐)
python infer_onnx.py \\
--prompt-audio-path assets/audio/zh_1.wav \\
--text "Welcome to the ONNX Runtime CPU demo."
CLI 一行命令
moss-tts-nano generate \\
--backend onnx \\
--prompt-speech assets/audio/zh_1.wav \\
--text "你好,这是 MOSS-TTS-Nano 的语音合成演示。"
本地 Web Demo
python app.py # PyTorch 版本
python app_onnx.py # ONNX 版本
moss-tts-nano serve --backend onnx # CLI 启动
浏览器打开 http://127.0.0.1:18083 即可体验。
微调支持
4 月 16 日,团队开放了微调代码。如果你对默认音色不满意,或者需要特定风格的语音,可以用自己的数据集训练。详见 ./finetuning/README.md。
MOSS-TTS 家族全览
MOSS-TTS-Nano 不是孤立的模型,它属于 MOSS-TTS Family,一个覆盖各种语音生成场景的完整家族:
| 模型 | 架构 | 参数量 | 定位 |
|---|---|---|---|
| MOSS-TTS | MossTTSDelay | 8B | 旗舰:高保真零样本克隆、长语音、细粒度控制 |
| MOSS-TTS-Local-Transformer | MossTTSLocal | 1.7B | 轻量版:保持旗舰风格,更小体积 |
| MOSS-TTSD-v1.0 | MossTTSDelay | 8B | 对话版:多人对话、超长对话音频 |
| MOSS-VoiceGenerator | MossTTSDelay | 1.7B | 音色设计:文本描述生成全新音色 |
| MOSS-SoundEffect | MossTTSDelay | 8B | 音效版:环境音、城市场景、短音乐 |
| MOSS-TTS-Realtime | MossTTSRealtime | 1.7B | 实时版:低延迟语音 Agent |
| MOSS-TTS-Nano | — | 0.1B | 极致轻量:CPU 可跑,浏览器可跑 |
技术架构
MOSS-TTS-Nano 采用纯自回归 Audio Tokenizer + LLM 管线。核心组件 MOSS-Audio-Tokenizer-Nano 基于 CAT(Causal Audio Tokenizer with Transformer)架构——一种无 CNN 的纯 Transformer 音频分词器,全部由因果 Transformer 块组成。
它作为整个 MOSS-TTS 家族的统一离散音频接口,让 Nano 版本与旗舰模型共享相同的音频表征空间,这是它能在极小参数量下仍保持不错音质的关键。
谁该用 MOSS-TTS-Nano?
- 独立开发者:想在 App 里加语音功能,但没有 GPU 服务器预算
- 内容创作者:需要快速配音,不想付费使用云 TTS API
- 浏览器扩展开发者:想做一个纯前端 TTS 工具
- 嵌入式/IoT 开发者:需要在资源受限设备上跑 TTS
- 语音 Agent 开发者:需要低延迟流式输出,实时对话场景
- 研究者/学生:想快速体验语音克隆,不想配置复杂环境
开源信息
- GitHub:https://github.com/OpenMOSS/MOSS-TTS-Nano
- 论文:arXiv:2603.18090
- 在线 Demo:https://openmoss.github.io/MOSS-TTS-Nano-Demo/
- Hugging Face Space:https://huggingface.co/spaces/OpenMOSS-Team/MOSS-TTS-Nano
- 浏览器阅读器:https://github.com/OpenMOSS/MOSS-TTS-Nano-Reader
- 团队:模思智能(MOSI.AI)+ 上海创智学院 + 复旦大学 NLP 实验室
写在最后
MOSS-TTS-Nano 的意义不在于它的音质能打败 8B 的旗舰模型——那不公平。它的意义在于:它把 TTS 的门槛降到了前所未有的高度。
0.1B 参数、CPU 可跑、浏览器可跑、20 种语言、零样本克隆、流式推理。当你不需要极致音质,只需要"足够好"的实时语音时,这就是你该选的模型。
在 AI 语音领域,大模型卷参数量卷得热火朝天的时候,有人在另一头把模型做小、做快、做到人人都能用。这值得尊敬。