编程 Pixelle-Video：阿里开源全自动视频生成，输入一句话串起整条产线，GitHub 2.2万 Star

2026-06-13 12:45:50 +0800 CST views 6

Pixelle-Video：阿里开源全自动视频生成，输入一句话串起整条产线

标签: Pixelle-Video / 阿里开源 / 视频生成 / AI / 全自动 / Streamlit / ComfyUI / 数字人 / AIGC
原文: 微信公众号「极客之家」https://mp.weixin.qq.com/s/AEN8XCDZkt4uCmF75kYIvw
GitHub: https://github.com/AIDC-AI/Pixelle-Video
协议: Apache 2.0

核心亮点

输入一个主题，自动写文案、生成配图/视频片段、合成语音、加 BGM，吐出一个成品视频。阿里国际 AI 团队（AIDC-AI）出品，GitHub 2.2 万 Star。

痛点：AI 视频工具都是"单点"

今年冒出来的 AI 视频工具很多，但大多是单点能力：

❌ 有的只做文案
❌ 有的只做配音
❌ 有的只能生图不能生视频

Pixelle-Video 是第一个把整条产线串起来的开源工具。

生成流程：四步全自动

文案生成 → 配图规划 → 逐帧处理 → 视频合成

整个过程不需要会剪辑、不用写脚本。

核心定位：不是生成器，是"装配工"

Pixelle-Video 不是 Runway，它自己不生成任何东西。

它干的事情是把各种模型串起来：

环节	可选模型
LLM 写文案	GPT-4o、通义千问、DeepSeek、Ollama 本地模型
出图/视频	ComfyUI、Seedream、Seedance、Kling
语音合成	Edge-TTS、Index-TTS
最终合成	ffmpeg + HTML 模板

生成的质量取决于你使用的模型质量。画质不行换图模型，文案太烂换 LLM，声音不喜欢换 TTS 工作流——不用赌一个模型能把所有事都做好。

WebUI：三栏布局，Streamlit 搭的

左边输入，中间调参数，右边预览。开发者风格，"能用就行"。

文案：LLM 随便换，不想写就贴现成稿

输入一个主题，比如"为什么我们还没有找到外星文明"，LLM 自动吐出一段解说词。

支持切换的 LLM：

GPT-4o（文案更自然）
通义千问（偏书面，够用）
DeepSeek
Ollama 本地模型

不想让 AI 写？切到「固定文案内容」模式，把现成稿子贴进去。文档里有拿《斗破苍穹》小说解说做例子的。

配图方案：三条路，随便选

方案一：ComfyUI 本地工作流

本地跑，有能打的显卡就行。默认带了 image_flux.json，自己写的也能丢进 workflows 文件夹。

方案二：RunningHub 云端

工作流挂云上，本地不用显卡，按量付钱，支持并行处理和并发数配置。

方案三：直连模型 API（2026 年 6 月新功能）

在 WebUI 里把 DashScope、OpenAI、Seedream、Seedance、Kling 的 API Key 一填，画图生视频直接调，ComfyUI 都不用装。

三条路可以混搭

文案走 Ollama 本地 + 配图走 Seedream API + 语音走 Edge-TTS 免费方案

这种拼积木的感觉是 Pixelle-Video 跟其他一键出片工具拉开差距的地方。

风格统一：prompt prefix

配图风格靠 prompt prefix 来统一。在视觉设置里填一句英文（比如「Minimalist black-and-white matchstick figure style illustration」），所有分镜都沿用这个风格。

不会第一帧油画风、第二帧日漫风——适合长视频或分集短剧。

语音合成

方案	说明
Edge-TTS	微软出品，免费，多语言支持，效果不差
Index-TTS	支持声音克隆，上传 MP3/WAV/FLAC 参考音频即可
多语言 TTS	2026 年 1 月加入，韩语法语日语都能搞

视频模板

三种类型，竖屏横屏方形都有：

类型	说明
`static_*`	纯文字排版
`image_*`	AI 生成图当背景叠文字
`video_*`	AI 视频片段当背景

会写 HTML 的可以在 templates 文件夹里自定义，字号颜色位置动画全都能调。

扩展模块（2026 年初加入）

1. 数字人口播

上传一张人像图和文案，数字人对着镜头念。支持韩语日语。开发团队背景是阿里国际 AI，适合跨境电商场景。

2. 图生视频 + 动作迁移

一张静态图 + 一段参考视频（比如跳舞），动作迁移到图片上——效果就是那只猫在跳那段舞。

3. 自定义素材

上传自己的照片和视频，AI 分析完自动生成脚本再合成。

安装：Windows 整合包一键启动

Windows

去 Releases 页面下载整合包 → 解压 → 双击 start.bat → 浏览器自动打开 localhost:8501。

Python、ffmpeg 全在包里，什么都不用装。

macOS / Linux

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

成本：可以一分钱不花

方案	成本	说明
全本地	零成本	Ollama 本地 LLM + ComfyUI 本地图像 + Edge-TTS 免费语音 + 内置 BGM。需要 8G 显存显卡
懒人云端	~0.01-0.05 元/段	通义千问 API + Edge-TTS，三分钟视频不到一毛
全套云端	贵	OpenAI + RunningHub，适合对视频质量要求高的玩家

总结

优点

✅ 全链路自动化 —— 输入主题，吐出成品视频
✅ 积木式架构 —— 各环节模型随便换，不绑定
✅ 零成本可选 —— 全本地跑一分钱不用花
✅ 三条配图路 —— ComfyUI 本地 / RunningHub 云端 / 直连 API
✅ 数字人口播 + 动作迁移 —— 扩展功能实用
✅ Windows 整合包 —— 一键启动，什么都不用装

局限

⚠️ GPU 是硬伤 —— 生图生视频吃显存，装配工解决不了这个
⚠️ 默认模板偏工具感 —— 要做出小红书那种精致程度得自己磨 prompt prefix 或重写模板
⚠️ 默认工作流审美一般 —— 出品好不好看全看你自己肯不肯花时间调

适合谁？

不想学剪辑，想快速出视频教程 / 内部分享课程
有本地显卡，想零成本跑 AI 视频
做跨境电商，需要数字人口播
想把小说 / 文章自动转成视频