编程 Pixelle-Video:阿里开源全自动视频生成,输入一句话串起整条产线,GitHub 2.2万 Star

2026-06-13 12:45:50 +0800 CST views 6

Pixelle-Video:阿里开源全自动视频生成,输入一句话串起整条产线

标签: Pixelle-Video / 阿里开源 / 视频生成 / AI / 全自动 / Streamlit / ComfyUI / 数字人 / AIGC
原文: 微信公众号「极客之家」https://mp.weixin.qq.com/s/AEN8XCDZkt4uCmF75kYIvw
GitHub: https://github.com/AIDC-AI/Pixelle-Video
协议: Apache 2.0


核心亮点

输入一个主题,自动写文案、生成配图/视频片段、合成语音、加 BGM,吐出一个成品视频。阿里国际 AI 团队(AIDC-AI)出品,GitHub 2.2 万 Star


痛点:AI 视频工具都是"单点"

今年冒出来的 AI 视频工具很多,但大多是单点能力:

  • ❌ 有的只做文案
  • ❌ 有的只做配音
  • ❌ 有的只能生图不能生视频

Pixelle-Video 是第一个把整条产线串起来的开源工具。


生成流程:四步全自动

文案生成 → 配图规划 → 逐帧处理 → 视频合成

整个过程不需要会剪辑、不用写脚本。


核心定位:不是生成器,是"装配工"

Pixelle-Video 不是 Runway,它自己不生成任何东西。

它干的事情是把各种模型串起来:

环节可选模型
LLM 写文案GPT-4o、通义千问、DeepSeek、Ollama 本地模型
出图/视频ComfyUI、Seedream、Seedance、Kling
语音合成Edge-TTS、Index-TTS
最终合成ffmpeg + HTML 模板

生成的质量取决于你使用的模型质量。画质不行换图模型,文案太烂换 LLM,声音不喜欢换 TTS 工作流——不用赌一个模型能把所有事都做好。


WebUI:三栏布局,Streamlit 搭的

左边输入,中间调参数,右边预览。开发者风格,"能用就行"。


文案:LLM 随便换,不想写就贴现成稿

输入一个主题,比如"为什么我们还没有找到外星文明",LLM 自动吐出一段解说词。

支持切换的 LLM

  • GPT-4o(文案更自然)
  • 通义千问(偏书面,够用)
  • DeepSeek
  • Ollama 本地模型

不想让 AI 写?切到「固定文案内容」模式,把现成稿子贴进去。文档里有拿《斗破苍穹》小说解说做例子的。


配图方案:三条路,随便选

方案一:ComfyUI 本地工作流

本地跑,有能打的显卡就行。默认带了 image_flux.json,自己写的也能丢进 workflows 文件夹。

方案二:RunningHub 云端

工作流挂云上,本地不用显卡,按量付钱,支持并行处理和并发数配置。

方案三:直连模型 API(2026 年 6 月新功能)

在 WebUI 里把 DashScope、OpenAI、Seedream、Seedance、Kling 的 API Key 一填,画图生视频直接调,ComfyUI 都不用装。

三条路可以混搭

文案走 Ollama 本地 + 配图走 Seedream API + 语音走 Edge-TTS 免费方案

这种拼积木的感觉是 Pixelle-Video 跟其他一键出片工具拉开差距的地方。


风格统一:prompt prefix

配图风格靠 prompt prefix 来统一。在视觉设置里填一句英文(比如「Minimalist black-and-white matchstick figure style illustration」),所有分镜都沿用这个风格。

不会第一帧油画风、第二帧日漫风——适合长视频或分集短剧。


语音合成

方案说明
Edge-TTS微软出品,免费,多语言支持,效果不差
Index-TTS支持声音克隆,上传 MP3/WAV/FLAC 参考音频即可
多语言 TTS2026 年 1 月加入,韩语法语日语都能搞

视频模板

三种类型,竖屏横屏方形都有:

类型说明
static_*纯文字排版
image_*AI 生成图当背景叠文字
video_*AI 视频片段当背景

会写 HTML 的可以在 templates 文件夹里自定义,字号颜色位置动画全都能调。


扩展模块(2026 年初加入)

1. 数字人口播

上传一张人像图和文案,数字人对着镜头念。支持韩语日语。开发团队背景是阿里国际 AI,适合跨境电商场景。

2. 图生视频 + 动作迁移

一张静态图 + 一段参考视频(比如跳舞),动作迁移到图片上——效果就是那只猫在跳那段舞。

3. 自定义素材

上传自己的照片和视频,AI 分析完自动生成脚本再合成。


安装:Windows 整合包一键启动

Windows

去 Releases 页面下载整合包 → 解压 → 双击 start.bat → 浏览器自动打开 localhost:8501

Python、ffmpeg 全在包里,什么都不用装

macOS / Linux

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

成本:可以一分钱不花

方案成本说明
全本地零成本Ollama 本地 LLM + ComfyUI 本地图像 + Edge-TTS 免费语音 + 内置 BGM。需要 8G 显存显卡
懒人云端~0.01-0.05 元/段通义千问 API + Edge-TTS,三分钟视频不到一毛
全套云端OpenAI + RunningHub,适合对视频质量要求高的玩家

总结

优点

全链路自动化 —— 输入主题,吐出成品视频
积木式架构 —— 各环节模型随便换,不绑定
零成本可选 —— 全本地跑一分钱不用花
三条配图路 —— ComfyUI 本地 / RunningHub 云端 / 直连 API
数字人口播 + 动作迁移 —— 扩展功能实用
Windows 整合包 —— 一键启动,什么都不用装

局限

⚠️ GPU 是硬伤 —— 生图生视频吃显存,装配工解决不了这个
⚠️ 默认模板偏工具感 —— 要做出小红书那种精致程度得自己磨 prompt prefix 或重写模板
⚠️ 默认工作流审美一般 —— 出品好不好看全看你自己肯不肯花时间调

适合谁?

  • 不想学剪辑,想快速出视频教程 / 内部分享课程
  • 有本地显卡,想零成本跑 AI 视频
  • 做跨境电商,需要数字人口播
  • 想把小说 / 文章自动转成视频

相关链接


Keywords: Pixelle-Video, 阿里开源, 全自动视频生成, AI视频工具, ComfyUI, Edge-TTS, 数字人, 动作迁移, Streamlit, AIGC, 视频自动化

推荐文章

Redis函数在PHP中的使用方法
2024-11-19 04:42:21 +0800 CST
Linux查看系统配置常用命令
2024-11-17 18:20:42 +0800 CST
使用 sync.Pool 优化 Go 程序性能
2024-11-19 05:56:51 +0800 CST
php内置函数除法取整和取余数
2024-11-19 10:11:51 +0800 CST
服务器购买推荐
2024-11-18 23:48:02 +0800 CST
程序员茄子在线接单