编程阿里发布首个「音视频实时交互」模型，实现数字人实时视频聊天

2026-06-26 18:16:02 +0800 CST views 13

阿里发布首个「音视频实时交互」模型，实现数字人实时视频聊天

数字人这个方向，已经很久没有很大的更新了。阿里对这个方向看起来还是很感兴趣的，一直在做类似的研究。

刚刚发布了一个原生流媒体端到端模型——Wan-Streamer v0.1，能够实时聆听、观看、思考、说话和响应视频，所有这些都在一个 Transformer 中完成。

什么是 Wan-Streamer？

Wan-Streamer v0.1 是一个原生流式、端到端的全双工（双向）音视频实时交互多模态基础大模型。

它摒弃了多个独立组件拼接的复杂架构，直接在单个 Transformer 架构内，将文本、音频和视频的输入输出 Token 进行无缝的交织建模处理。通过块因果注意力等机制，实现了低至 200ms 的模型端响应延迟，让真正具备亚秒级延迟、音画同步的实时数字人落地成为可能。

核心特点

真正的端到端多模态统一

传统的交互系统像链条一样：摄像头抓取画面 → 麦克风录音 → 转化为文字 → 语言模型思考 → 转化为语音 → 驱动数字人。任何一个环节卡顿，满盘皆输。

Wan-Streamer 内部没有外接任何 ASR、TTS 或视频生成模块，全部由同一个大模型在内部自主完成。

低延迟、流式调度

重新设计了整个技术栈，包括因果编码器/解码器、块因果注意力机制、低延迟的多模态 Token 调度器。在 25fps 下，流式单元最短可达 160ms。

在实际部署测试中：

模型端响应延迟：~200ms
加上 350ms 双向网络延迟，整体交互延迟：~550ms

原生全双工交互

Wan-Streamer 支持全双工通信，这意味着系统在生成输出的同时，依然在持续感知输入。当你对它的回答感到不满意或想补充信息时，可以随时出声或做手势打断它，模型能够立即理解并无缝调整当前的动作与话语，就像和真人打视频电话一样自然。

音视频绝对同步

市面上很多能做实时语音的模型只支持输出声音或文本，无法输出实时的同步视觉画面。Wan-Streamer 是目前开源领域中，唯一一个能够以 25 帧/秒的速度，原生、同步输出音频和视觉分身的大模型，彻底解决了音画不同步的违和感。

链接

HuggingFace 论文：https://huggingface.co/papers/2606.25041
官方博客：https://wan-streamer.com/

复制全文生成海报 AI 多模态数字人阿里实时交互视频生成

推荐文章

任务管理工具的HTML

2025-01-20 22:36:11 +0800 CST

解决php中出现cURL error 60: SSL certificate problem: unable to get local issuer certificate

2024-11-18 19:18:40 +0800 CST

AI Agent的「万能硬盘」来了！Mirage让AI用Bash一招打天下

2026-05-09 07:14:45 +0800 CST

Soybean-Admin：从零到一搭建灵活、可扩展的 Vue 3 企业后台系统模板

2024-11-18 18:34:21 +0800 CST

PromptSpy 深度解析：当安卓恶意软件第一次在运行时「调用 AI 思考」

2026-04-09 11:54:49 +0800 CST

Go 语言中的 `select` 使用及基本实现

2024-11-18 22:38:30 +0800 CST

向量数据库终极选型指南（2026版）：Qdrant、Milvus、Pgvector、Chroma 深度对比与架构解析

2026-05-18 05:44:15 +0800 CST

HarmonyOS 7 深度实战：当操作系统学会「思考」——从Agent亲和架构到HMAF 2.0智能体框架的生产级开发完全指南（2026）

2026-06-13 09:54:08 +0800 CST

Go 1.24 深度实战：当 Go 语言进入工程化成熟期——从 slog 到结构化并发、从标准库到生产级微服务架构的完全指南（2026）

2026-06-19 01:54:06 +0800 CST

Vue3 中哪些 API 变化较大，需要开发者特别留意？

2024-11-18 10:16:41 +0800 CST

当「无限续杯」时代落幕：GitHub Copilot 订阅危机深度解析与开发者应对指南

2026-04-23 11:41:08 +0800 CST

Rust在前端工具链的崛起：从Rolldown到Oxc，2026年生态全景

2026-04-19 21:15:51 +0800 CST

PyDy是一个用于动力学建模和仿真的Python库

2024-11-18 16:48:43 +0800 CST

GitHub 22k Star 的 Beads：如何用 Dolt 给 AI Agent 装上一个永久记忆大脑

2026-04-28 14:54:44 +0800 CST

如何在JavaScript中将一维数组或整数等分成三部分

2024-11-19 04:33:50 +0800 CST

awesome-codex-skills 深度解析：Codex 技能生态精选——从开发工具到协作工具的完整技术实战

2026-05-05 01:35:15 +0800 CST

Spring Boot 4.1.0 深度实战：当虚拟线程 + 惰性连接 + 原生 gRPC 三剑合璧——从架构原理到生产级迁移的完全指南（2026）

2026-06-20 16:55:18 +0800 CST

Karpathy 的 LLM Wiki 深度解析：当知识管理从「解释器」进化为「编译器」——一场关于复利效应的工程革命

2026-04-13 00:25:08 +0800 CST

Chrome DevTools MCP 深度实战：当浏览器调试遇上 AI 代理——从 CDP 协议到智能调试助手的完全指南（2026）

2026-06-09 22:48:53 +0800 CST

Go 并发利器 WaitGroup

2024-11-19 02:51:18 +0800 CST

VMark深度解析：为AI时代打造的本地优先Markdown编辑器

2026-04-27 20:09:26 +0800 CST

imghdr是Python内置库，用于通过分析文件内容识别图片格式，而非依赖扩展名

2024-11-17 05:40:47 +0800 CST

Paper.js是一个开源的JavaScript库，基于HTML5Canvas构建，提供强大的工具用于创建和操作矢量图形

2024-11-18 15:08:45 +0800 CST

Warp 深度实战：OpenAI 赞助的新一代 AI 终端——从 Rust 架构到 Agentic 开发环境的生产级完全指南（2026）

2026-06-06 02:09:35 +0800 CST

LiteRT-LM：Google端侧大模型推理引擎的革命性架构——从TensorFlow Lite的困境到LLM原生推理的全链路解析

2026-04-19 22:17:39 +0800 CST

出海独立站个人收款，为什么我选 Creem？

2025-07-28 23:05:44 +0800 CST

VibeVoice 深度实战：当微软用 60 分钟长音频打破语音 AI 的「时长诅咒」——从实时语音合成到 Hugging Face 生态集成的生产级完全指南（2026）

2026-06-17 00:25:12 +0800 CST

logt是一个轻量级的Python日志处理库

2024-11-18 16:17:09 +0800 CST

当 OpenAI 掷出 60 万美元：Rust 如何从系统编程语言变成 AI 基础设施的底层操作系统

2026-06-21 07:57:04 +0800 CST

一款开源桌面音视频转换工具，支持RTMP/HLS推流+屏幕录制+FLV拉流

2026-04-21 08:46:51 +0800 CST

2024年网站建设、维护与优化：SEO的重要性解析

2024-11-17 04:38:45 +0800 CST

TrendRadar深度解析：55K Star的AI舆情监控神器，如何用30秒告别信息过载

2026-05-11 12:58:42 +0800 CST

Gin 与 Layui 分页 HTML 生成工具

2024-11-19 09:20:21 +0800 CST

Chrome DevTools MCP 深度实战：让 AI 编程助手真正看懂并操控浏览器的技术革命

2026-05-16 04:43:16 +0800 CST

Rust 并发执行异步操作

2024-11-19 08:16:42 +0800 CST

Docker 搭建一款开源高性能的个人图床系统

2024-11-19 04:02:04 +0800 CST

GitHub史上最大规模供应链级联攻击：3,800个内部仓库被窃——从TanStack投毒到"国家安全部"警告的完整技术剖析（2026）

2026-06-22 13:57:19 +0800 CST

ZVec 深度实战：阿里巴巴开源的轻量级向量数据库——从进程内架构到 AI 应用集成的全链路解析

2026-05-07 08:06:52 +0800 CST

GMSSH：桌面级AI运维终端，零侵入纯SSH隧道

2026-05-24 16:49:36 +0800 CST

Linux 7.0 内核 AI 功能键深度解析：当操作系统首次将 AI 交互写入硬件协议

2026-04-12 01:23:42 +0800 CST

Vite 6 深度解析：Rolldown 引擎替换 + Environment API，前端构建工具的终极进化

2026-05-11 07:55:02 +0800 CST

OpenTelemetry 2026 深度解析：可观测性的统一标准，从 Tracing 到 Logging 全覆盖

2026-05-15 05:55:41 +0800 CST

Rust 1.96.0 深度解读：Copy Range 重塑 slice 操作范式，双 CVE 加固 Cargo 安全防线

2026-06-16 13:49:17 +0800 CST

MemPalace 深度实战：当 AI Agent 遇见「记忆宫殿」——从本地优先架构到 96.6% 召回率的生产级完全指南（2026）

2026-06-16 03:46:31 +0800 CST

PostgreSQL 19 并行自动清理与REPACK深度实战：解决你的数据库胀肚问题

2026-05-19 16:42:08 +0800 CST

Python 3.14 深度实战：从 JIT 编译器到 t-string 模板——2026 年 Python 性能与语法双重革命完全指南

2026-05-24 11:31:39 +0800 CST

React 19 深度实战：当编译器成为性能优化专家——从 React Compiler 到 Server Components 的生产级完全指南（2026）

2026-06-10 20:20:54 +0800 CST

MySQL 主从同步一致性详解

2024-11-19 02:49:19 +0800 CST

NATS 深度实战：当微服务学会了「闪电通信」——从 Pub/Sub 到 JetStream 持久化的生产级完全指南（2026）

2026-06-14 21:20:26 +0800 CST

使用 Gin 和 OpenAI 实现实时聊天：后端代码与前端集成

2024-11-19 01:23:58 +0800 CST

编程 阿里发布首个「音视频实时交互」模型，实现数字人实时视频聊天