Pixelle-Video:阿里开源全自动视频生成,输入一句话串起整条产线
标签: Pixelle-Video / 阿里开源 / 视频生成 / AI / 全自动 / Streamlit / ComfyUI / 数字人 / AIGC
原文: 微信公众号「极客之家」https://mp.weixin.qq.com/s/AEN8XCDZkt4uCmF75kYIvw
GitHub: https://github.com/AIDC-AI/Pixelle-Video
协议: Apache 2.0
核心亮点
输入一个主题,自动写文案、生成配图/视频片段、合成语音、加 BGM,吐出一个成品视频。阿里国际 AI 团队(AIDC-AI)出品,GitHub 2.2 万 Star。
痛点:AI 视频工具都是"单点"
今年冒出来的 AI 视频工具很多,但大多是单点能力:
- ❌ 有的只做文案
- ❌ 有的只做配音
- ❌ 有的只能生图不能生视频
Pixelle-Video 是第一个把整条产线串起来的开源工具。
生成流程:四步全自动
文案生成 → 配图规划 → 逐帧处理 → 视频合成
整个过程不需要会剪辑、不用写脚本。
核心定位:不是生成器,是"装配工"
Pixelle-Video 不是 Runway,它自己不生成任何东西。
它干的事情是把各种模型串起来:
| 环节 | 可选模型 |
|---|---|
| LLM 写文案 | GPT-4o、通义千问、DeepSeek、Ollama 本地模型 |
| 出图/视频 | ComfyUI、Seedream、Seedance、Kling |
| 语音合成 | Edge-TTS、Index-TTS |
| 最终合成 | ffmpeg + HTML 模板 |
生成的质量取决于你使用的模型质量。画质不行换图模型,文案太烂换 LLM,声音不喜欢换 TTS 工作流——不用赌一个模型能把所有事都做好。
WebUI:三栏布局,Streamlit 搭的
左边输入,中间调参数,右边预览。开发者风格,"能用就行"。
文案:LLM 随便换,不想写就贴现成稿
输入一个主题,比如"为什么我们还没有找到外星文明",LLM 自动吐出一段解说词。
支持切换的 LLM:
- GPT-4o(文案更自然)
- 通义千问(偏书面,够用)
- DeepSeek
- Ollama 本地模型
不想让 AI 写?切到「固定文案内容」模式,把现成稿子贴进去。文档里有拿《斗破苍穹》小说解说做例子的。
配图方案:三条路,随便选
方案一:ComfyUI 本地工作流
本地跑,有能打的显卡就行。默认带了 image_flux.json,自己写的也能丢进 workflows 文件夹。
方案二:RunningHub 云端
工作流挂云上,本地不用显卡,按量付钱,支持并行处理和并发数配置。
方案三:直连模型 API(2026 年 6 月新功能)
在 WebUI 里把 DashScope、OpenAI、Seedream、Seedance、Kling 的 API Key 一填,画图生视频直接调,ComfyUI 都不用装。
三条路可以混搭
文案走 Ollama 本地 + 配图走 Seedream API + 语音走 Edge-TTS 免费方案
这种拼积木的感觉是 Pixelle-Video 跟其他一键出片工具拉开差距的地方。
风格统一:prompt prefix
配图风格靠 prompt prefix 来统一。在视觉设置里填一句英文(比如「Minimalist black-and-white matchstick figure style illustration」),所有分镜都沿用这个风格。
不会第一帧油画风、第二帧日漫风——适合长视频或分集短剧。
语音合成
| 方案 | 说明 |
|---|---|
| Edge-TTS | 微软出品,免费,多语言支持,效果不差 |
| Index-TTS | 支持声音克隆,上传 MP3/WAV/FLAC 参考音频即可 |
| 多语言 TTS | 2026 年 1 月加入,韩语法语日语都能搞 |
视频模板
三种类型,竖屏横屏方形都有:
| 类型 | 说明 |
|---|---|
static_* | 纯文字排版 |
image_* | AI 生成图当背景叠文字 |
video_* | AI 视频片段当背景 |
会写 HTML 的可以在 templates 文件夹里自定义,字号颜色位置动画全都能调。
扩展模块(2026 年初加入)
1. 数字人口播
上传一张人像图和文案,数字人对着镜头念。支持韩语日语。开发团队背景是阿里国际 AI,适合跨境电商场景。
2. 图生视频 + 动作迁移
一张静态图 + 一段参考视频(比如跳舞),动作迁移到图片上——效果就是那只猫在跳那段舞。
3. 自定义素材
上传自己的照片和视频,AI 分析完自动生成脚本再合成。
安装:Windows 整合包一键启动
Windows
去 Releases 页面下载整合包 → 解压 → 双击 start.bat → 浏览器自动打开 localhost:8501。
Python、ffmpeg 全在包里,什么都不用装。
macOS / Linux
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py
成本:可以一分钱不花
| 方案 | 成本 | 说明 |
|---|---|---|
| 全本地 | 零成本 | Ollama 本地 LLM + ComfyUI 本地图像 + Edge-TTS 免费语音 + 内置 BGM。需要 8G 显存显卡 |
| 懒人云端 | ~0.01-0.05 元/段 | 通义千问 API + Edge-TTS,三分钟视频不到一毛 |
| 全套云端 | 贵 | OpenAI + RunningHub,适合对视频质量要求高的玩家 |
总结
优点
✅ 全链路自动化 —— 输入主题,吐出成品视频
✅ 积木式架构 —— 各环节模型随便换,不绑定
✅ 零成本可选 —— 全本地跑一分钱不用花
✅ 三条配图路 —— ComfyUI 本地 / RunningHub 云端 / 直连 API
✅ 数字人口播 + 动作迁移 —— 扩展功能实用
✅ Windows 整合包 —— 一键启动,什么都不用装
局限
⚠️ GPU 是硬伤 —— 生图生视频吃显存,装配工解决不了这个
⚠️ 默认模板偏工具感 —— 要做出小红书那种精致程度得自己磨 prompt prefix 或重写模板
⚠️ 默认工作流审美一般 —— 出品好不好看全看你自己肯不肯花时间调
适合谁?
- 不想学剪辑,想快速出视频教程 / 内部分享课程
- 有本地显卡,想零成本跑 AI 视频
- 做跨境电商,需要数字人口播
- 想把小说 / 文章自动转成视频
相关链接
- GitHub: https://github.com/AIDC-AI/Pixelle-Video
- 协议: Apache 2.0
- 出品团队: 阿里国际 AI 团队(AIDC-AI)
Keywords: Pixelle-Video, 阿里开源, 全自动视频生成, AI视频工具, ComfyUI, Edge-TTS, 数字人, 动作迁移, Streamlit, AIGC, 视频自动化