编程 阿里发布首个「音视频实时交互」模型,实现数字人实时视频聊天

2026-06-26 18:16:02 +0800 CST views 13

阿里发布首个「音视频实时交互」模型,实现数字人实时视频聊天

数字人这个方向,已经很久没有很大的更新了。阿里对这个方向看起来还是很感兴趣的,一直在做类似的研究。

刚刚发布了一个原生流媒体端到端模型——Wan-Streamer v0.1,能够实时聆听、观看、思考、说话和响应视频,所有这些都在一个 Transformer 中完成。

什么是 Wan-Streamer?

Wan-Streamer v0.1 是一个原生流式、端到端的全双工(双向)音视频实时交互多模态基础大模型。

它摒弃了多个独立组件拼接的复杂架构,直接在单个 Transformer 架构内,将文本、音频和视频的输入输出 Token 进行无缝的交织建模处理。通过块因果注意力等机制,实现了低至 200ms 的模型端响应延迟,让真正具备亚秒级延迟、音画同步的实时数字人落地成为可能。

核心特点

真正的端到端多模态统一

传统的交互系统像链条一样:摄像头抓取画面 → 麦克风录音 → 转化为文字 → 语言模型思考 → 转化为语音 → 驱动数字人。任何一个环节卡顿,满盘皆输。

Wan-Streamer 内部没有外接任何 ASR、TTS 或视频生成模块,全部由同一个大模型在内部自主完成。

低延迟、流式调度

重新设计了整个技术栈,包括因果编码器/解码器、块因果注意力机制、低延迟的多模态 Token 调度器。在 25fps 下,流式单元最短可达 160ms

在实际部署测试中:

  • 模型端响应延迟:~200ms
  • 加上 350ms 双向网络延迟,整体交互延迟:~550ms

原生全双工交互

Wan-Streamer 支持全双工通信,这意味着系统在生成输出的同时,依然在持续感知输入。当你对它的回答感到不满意或想补充信息时,可以随时出声或做手势打断它,模型能够立即理解并无缝调整当前的动作与话语,就像和真人打视频电话一样自然。

音视频绝对同步

市面上很多能做实时语音的模型只支持输出声音或文本,无法输出实时的同步视觉画面。Wan-Streamer 是目前开源领域中,唯一一个能够以 25 帧/秒的速度,原生、同步输出音频和视觉分身的大模型,彻底解决了音画不同步的违和感。

链接

  • HuggingFace 论文:https://huggingface.co/papers/2606.25041
  • 官方博客:https://wan-streamer.com/

推荐文章

任务管理工具的HTML
2025-01-20 22:36:11 +0800 CST
Go 并发利器 WaitGroup
2024-11-19 02:51:18 +0800 CST
Gin 与 Layui 分页 HTML 生成工具
2024-11-19 09:20:21 +0800 CST
Rust 并发执行异步操作
2024-11-19 08:16:42 +0800 CST
MySQL 主从同步一致性详解
2024-11-19 02:49:19 +0800 CST
程序员茄子在线接单