你有没有这样的烦恼:想用开源的 AI 文生图模型,要么显卡要求高得离谱,要么生成速度慢如蜗牛,更让人头疼的是——文字渲染永远是一塌糊涂?
做海报、表情包、漫画这类需要精准文字的内容时,很多模型输出的结果简直是灾难现场。
好消息来了:百度刚刚开源了一款新的文生图模型 ERNIE-Image。这个模型在多个关键维度上都做到了兼顾,而且最让人惊喜的是——只有 8B 参数,消费级显卡就能跑。
ERNIE-Image 是什么
ERNIE-Image 是百度开源的文本到图像生成模型,基于单一流(Single-flow)的 Diffusion Transformer(DiT) 架构开发。
它的核心设计理念非常清晰:用更小的参数规模,达到更大的效果。
为了实现这个目标,ERNIE-Image 配套了一个轻量级的 Prompt Enhancer(提示词增强器),可以将用户简短的描述自动扩展为更丰富的结构化提示词,让模型更好地理解创作意图。
最硬核的数据:
- 8B DiT 参数(只有 80 亿)
- 多个基准测试达到开源文生图模型顶级表现
- 完全开源、可商用
- 普通 24G 显存显卡就能运行
这意味着什么?意味着你不需要花几万块买服务器显卡,在家里的 RTX 3090 或者 RTX 4090 上就能跑出专业级效果。
核心能力实测
1. 基准测试屠榜
根据官方的 GenEval 基准测试数据,ERNIE-Image 在多个维度上表现优异:
| 测试维度 | ERNIE-Image | Qwen-Image | FLUX.2-klein-9B |
|---|---|---|---|
| 单对象生成 | ✅ | ❌ | ✅ |
| 双对象生成 | ✅ | ✅ | ❌ |
| 计数准确性 | ✅ | ❌ | ✅ |
| 颜色还原 | ✅ | ✅ | ✅ |
| 位置关系 | ✅ | ❌ | ❌ |
| 属性绑定 | ✅ | ✅ | ✅ |
| 综合得分 | Top | - | - |
整体得分甚至超越了 Qwen-Image 和 FLUX.2-klein-9B 这两个同量级对手。
2. 文字渲染:这次真的行了
这是 ERNIE-Image 最令人惊喜的能力。
在 LongTextBench 基准测试中,它在英文和中文长文本渲染上都取得了极高的分数。
无论你是想生成:
- 📄 排版密集的公告海报
- 📝 带有长段文字的信息图
- 🎨 对布局精确要求的 UI 设计图
- 📚 中英文混合的技术文档配图
它都能稳定输出高可读性的结果。
这对于做海报、信息图、UI 类图片这类文字密集型视觉内容的创作者来说,简直是刚需级能力。
3. 指令遵循:说啥做啥
ERNIE-Image 能够可靠地理解并执行涉及多个对象、复杂关系和知识密集型描述的复杂提示词。
简单来说:你给出越具体的需求,它越能准确执行。不再是"说了半天,生成一张完全不搭边的图"。
4. 结构化生成:海报漫画都能打
对于海报、漫画、故事板、多格构图这类有明确结构要求的视觉任务,ERNIE-Image 特别擅长。
这些场景需要精确的布局控制——多个角色在画面中的位置关系、对话气泡的排布、分镜之间的逻辑衔接——普通模型在这些场景下经常翻车,ERNIE-Image 表现出色。
5. 风格全覆盖
支持写实摄影、设计导向图像、独特风格化美学等多种风格。插画、漫画、真实照片质感——全都能搞定。
两个版本,怎么选
ERNIE-Image 提供了两个版本,适合不同的使用场景:
📌 ERNIE-Image 标准版
- 经过 SFT 训练的模型,通用能力和指令遵循能力更强
- 推理步数:50 步
- CFG(Classifier-Free Guidance):4.0
- 适合对质量有极致追求的场景
⚡ ERNIE-Image-Turbo(加速版)
- 经过 DMD 和 RL 优化,速度更快,美学效果更好
- 推理步数:仅需 8 步!
- CFG:1.0
- 适合需要快速生成、追求效率的场景
8 步 vs 50 步,Turbo 版的生成速度提升非常明显,特别适合需要快速迭代的设计工作流。
快速上手教程
方式一:Diffusers(最简单,适合个人用户)
安装最新版本的 diffusers:
pip install git+https://github.com/huggingface/diffusers
cd diffusers
pip install -e .
ERNIE-Image 标准版(50步):
import torch
from diffusers import ErnieImagePipeline
pipe = ErnieImagePipeline.from_pretrained(
"baidu/ERNIE-Image",
torch_dtype=torch.bfloat16,
).to("cuda")
image = pipe(
prompt="一只黑白相间的中华田园犬",
height=1024,
width=1024,
num_inference_steps=50,
guidance_scale=4.0,
use_pe=True
).images[0]
image.save("output.png")
ERNIE-Image-Turbo 加速版(8步):
pipe = ErnieImagePipeline.from_pretrained(
"baidu/ERNIE-Image-Turbo",
torch_dtype=torch.bfloat16,
).to("cuda")
image = pipe(
prompt="一只黑白相间的中华田园犬",
height=1024,
width=1024,
num_inference_steps=8,
guidance_scale=1.0,
use_pe=True
).images[0]
方式二:SGLang(适合服务端部署)
SGLang 提供了两种部署方式:
方法 1:一键部署 ERNIE-Image + Prompt Enhancer
git clone https://github.com/sgl-project/sglang.git
sglang serve --model-path baidu/ERNIE-Image
发送请求:
curl -X POST http://localhost:30000/v1/images/generations \
-H "Content-Type: application/json" \
-d '{
"prompt": "一只黑白相间的中华田园犬",
"height": 1024,
"width": 1024,
"num_inference_steps": 50,
"guidance_scale": 4.0
}' \
--output output.png
方法 2:分开部署(进一步提升 PE 推理速度)
也可以选择 ERNIE-Image 和 Prompt Enhancer 分开部署,这样 PE 的推理速度可以进一步优化。
方式三:ComfyUI(图形化操作)
最新版本的 ComfyUI 已经支持 ERNIE-Image 了!你可以在 ComfyUI 中找到 ERNIE-Image-Turbo 的工作流模板,用图形化的方式进行创作,零代码操作。
写在最后
在 AI 文生图这个竞争激烈的赛道上,ERNIE-Image 凭借着均衡的表现成功出圈。
对于创作者来说,这是个好消息。你不需要投入太多硬件成本,就能获得高质量的文生图能力——特别是文字渲染这个痛点,它的表现尤其突出。
做海报不用再为文字乱码头疼,做信息图不用自己手动 P 文字,做漫画分镜可以直接出带字的草稿……
这些以前开源模型做不好的事情,ERNIE-Image 帮你解决了。
GitHub 地址: https://github.com/baidu/ernie-image
如果你觉得这篇文章有用,欢迎分享给更多需要的朋友。