阿里发布首个「音视频实时交互」模型,实现数字人实时视频聊天
数字人这个方向,已经很久没有很大的更新了。阿里对这个方向看起来还是很感兴趣的,一直在做类似的研究。
刚刚发布了一个原生流媒体端到端模型——Wan-Streamer v0.1,能够实时聆听、观看、思考、说话和响应视频,所有这些都在一个 Transformer 中完成。
什么是 Wan-Streamer?
Wan-Streamer v0.1 是一个原生流式、端到端的全双工(双向)音视频实时交互多模态基础大模型。
它摒弃了多个独立组件拼接的复杂架构,直接在单个 Transformer 架构内,将文本、音频和视频的输入输出 Token 进行无缝的交织建模处理。通过块因果注意力等机制,实现了低至 200ms 的模型端响应延迟,让真正具备亚秒级延迟、音画同步的实时数字人落地成为可能。
核心特点
真正的端到端多模态统一
传统的交互系统像链条一样:摄像头抓取画面 → 麦克风录音 → 转化为文字 → 语言模型思考 → 转化为语音 → 驱动数字人。任何一个环节卡顿,满盘皆输。
Wan-Streamer 内部没有外接任何 ASR、TTS 或视频生成模块,全部由同一个大模型在内部自主完成。
低延迟、流式调度
重新设计了整个技术栈,包括因果编码器/解码器、块因果注意力机制、低延迟的多模态 Token 调度器。在 25fps 下,流式单元最短可达 160ms。
在实际部署测试中:
- 模型端响应延迟:~200ms
- 加上 350ms 双向网络延迟,整体交互延迟:~550ms
原生全双工交互
Wan-Streamer 支持全双工通信,这意味着系统在生成输出的同时,依然在持续感知输入。当你对它的回答感到不满意或想补充信息时,可以随时出声或做手势打断它,模型能够立即理解并无缝调整当前的动作与话语,就像和真人打视频电话一样自然。
音视频绝对同步
市面上很多能做实时语音的模型只支持输出声音或文本,无法输出实时的同步视觉画面。Wan-Streamer 是目前开源领域中,唯一一个能够以 25 帧/秒的速度,原生、同步输出音频和视觉分身的大模型,彻底解决了音画不同步的违和感。
链接
- HuggingFace 论文:https://huggingface.co/papers/2606.25041
- 官方博客:https://wan-streamer.com/