MOSS-TTS-Nano：0.1B 参数的开源语音模型，CPU 直跑，浏览器里都能用-程序员茄子

编程 MOSS-TTS-Nano：0.1B 参数的开源语音模型，CPU 直跑，浏览器里都能用

2026-04-25 08:17:20 +0800 CST views 10

当你还在为 TTS 部署发愁——显卡不够、延迟太高、模型太大跑不动的时候，OpenMOSS 团队给了你一个几乎不可能的答案：0.1B 参数，纯 CPU 可跑，还能流式输出 48kHz 立体声音频。

这就是 MOSS-TTS-Nano。

一句话概括

MOSS-TTS-Nano 是由模思智能（MOSI.AI）和 OpenMOSS 团队联合开源的多语言微型语音生成模型，核心目标只有一个：让 TTS 部署这件事变得足够简单。

核心特性

0.1B 参数，小到离谱

0.1B 参数是什么概念？当前主流开源 TTS 模型动辄数 GB，MOSS-TTS-Nano 的模型体量只有它们的几十分之一。这意味着：

不需要 GPU：4 核 CPU 就能跑流式推理
内存占用极低：连树莓派都有可能跑起来
部署成本近乎为零：任何一台普通电脑都能即开即用

48kHz 立体声输出

MOSS-TTS-Nano 不因为小就牺牲音质。它原生支持 48kHz 采样率、2 声道输出，这在同体量模型中极为罕见。配合 MOSS-Audio-Tokenizer-Nano（约 20M 参数），它可以将 48kHz 立体声音频压缩到 12.5Hz 的 token 流，使用 RVQ 16 层 codebook，实现从 0.125kbps 到 2kbps 的可变码率高保真重建。

20 种语言

支持中文、英文、日语、韩语、法语、德语、西班牙语、俄语、阿拉伯语、波斯语等 20 种语言，覆盖全球主要语种。对于需要多语言支持的应用场景，一个模型就够了。

零样本语音克隆

这是 MOSS-TTS-Nano 的杀手级功能。只需提供一段几秒钟的参考音频，就能克隆说话人的音色，无需任何微调训练。对话、旁白、配音——一段样本音搞定。

流式推理

低延迟首字响应，实时流式生成音频。对于对话机器人、语音助手等实时交互场景，这意味着用户几乎感觉不到等待。

长文本支持

支持长输入，内置自动分块的语音克隆机制。不用手动拆段，扔一整篇文章进去也行。

ONNX 版本：更快、更轻、更独立

2026 年 4 月 17 日，团队发布了 ONNX CPU 版本，这是一个重要的里程碑：

去除了 PyTorch 依赖：推理时只需要 ONNX Runtime，部署栈极其精简
处理效率近 2 倍提升：相比原始 PyTorch 版本
单核流畅运行：在 MacBook Air M4 上，单核 CPU 即可流畅推理
完整的语音克隆工作流：支持参考音频输入、内置音色、实时流式解码

ONNX 模型托管在 Hugging Face：

浏览器插件：MOSS-TTS-Nano-Reader

更狠的是，基于 ONNX 版本，团队还做了 MOSS-TTS-Nano-Reader——一个浏览器扩展，模型直接在浏览器里跑，不需要任何本地推理服务。

这意味着什么？用户安装一个 Chrome 扩展，选中网页文字，右键一按，AI 就用你选定的音色把文字读出来。不需要服务器，不需要 API Key，不需要显卡。

快速上手

PyTorch 版本

conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano
pip install -r requirements.txt
pip install -e .

# 语音克隆推理
python infer.py \\
  --prompt-audio-path assets/audio/zh_1.wav \\
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

ONNX 版本（推荐）

python infer_onnx.py \\
  --prompt-audio-path assets/audio/zh_1.wav \\
  --text "Welcome to the ONNX Runtime CPU demo."

CLI 一行命令

moss-tts-nano generate \\
  --backend onnx \\
  --prompt-speech assets/audio/zh_1.wav \\
  --text "你好，这是 MOSS-TTS-Nano 的语音合成演示。"

本地 Web Demo

python app.py          # PyTorch 版本
python app_onnx.py     # ONNX 版本
moss-tts-nano serve --backend onnx  # CLI 启动

浏览器打开 http://127.0.0.1:18083 即可体验。

微调支持

4 月 16 日，团队开放了微调代码。如果你对默认音色不满意，或者需要特定风格的语音，可以用自己的数据集训练。详见 ./finetuning/README.md。

MOSS-TTS 家族全览

MOSS-TTS-Nano 不是孤立的模型，它属于 MOSS-TTS Family，一个覆盖各种语音生成场景的完整家族：

模型	架构	参数量	定位
MOSS-TTS	MossTTSDelay	8B	旗舰：高保真零样本克隆、长语音、细粒度控制
MOSS-TTS-Local-Transformer	MossTTSLocal	1.7B	轻量版：保持旗舰风格，更小体积
MOSS-TTSD-v1.0	MossTTSDelay	8B	对话版：多人对话、超长对话音频
MOSS-VoiceGenerator	MossTTSDelay	1.7B	音色设计：文本描述生成全新音色
MOSS-SoundEffect	MossTTSDelay	8B	音效版：环境音、城市场景、短音乐
MOSS-TTS-Realtime	MossTTSRealtime	1.7B	实时版：低延迟语音 Agent
MOSS-TTS-Nano	—	0.1B	极致轻量：CPU 可跑，浏览器可跑

技术架构

MOSS-TTS-Nano 采用纯自回归 Audio Tokenizer + LLM 管线。核心组件 MOSS-Audio-Tokenizer-Nano 基于 CAT（Causal Audio Tokenizer with Transformer）架构——一种无 CNN 的纯 Transformer 音频分词器，全部由因果 Transformer 块组成。

它作为整个 MOSS-TTS 家族的统一离散音频接口，让 Nano 版本与旗舰模型共享相同的音频表征空间，这是它能在极小参数量下仍保持不错音质的关键。

谁该用 MOSS-TTS-Nano？

独立开发者：想在 App 里加语音功能，但没有 GPU 服务器预算
内容创作者：需要快速配音，不想付费使用云 TTS API
浏览器扩展开发者：想做一个纯前端 TTS 工具
嵌入式/IoT 开发者：需要在资源受限设备上跑 TTS
语音 Agent 开发者：需要低延迟流式输出，实时对话场景
研究者/学生：想快速体验语音克隆，不想配置复杂环境

开源信息

GitHub：https://github.com/OpenMOSS/MOSS-TTS-Nano
论文：arXiv:2603.18090
在线 Demo：https://openmoss.github.io/MOSS-TTS-Nano-Demo/
Hugging Face Space：https://huggingface.co/spaces/OpenMOSS-Team/MOSS-TTS-Nano
浏览器阅读器：https://github.com/OpenMOSS/MOSS-TTS-Nano-Reader
团队：模思智能（MOSI.AI）+ 上海创智学院 + 复旦大学 NLP 实验室

写在最后

MOSS-TTS-Nano 的意义不在于它的音质能打败 8B 的旗舰模型——那不公平。它的意义在于：它把 TTS 的门槛降到了前所未有的高度。

0.1B 参数、CPU 可跑、浏览器可跑、20 种语言、零样本克隆、流式推理。当你不需要极致音质，只需要"足够好"的实时语音时，这就是你该选的模型。

在 AI 语音领域，大模型卷参数量卷得热火朝天的时候，有人在另一头把模型做小、做快、做到人人都能用。这值得尊敬。

复制全文生成海报 AI 开源语音合成 TTS MOSS