百度开源 ERNIE-Image：8B 参数挑战文生图第一梯队，24G 显卡就能跑！-程序员茄子

资讯百度开源 ERNIE-Image：8B 参数挑战文生图第一梯队，24G 显卡就能跑！

2026-04-23 16:21:28 +0800 CST views 4

你有没有这样的烦恼：想用开源的 AI 文生图模型，要么显卡要求高得离谱，要么生成速度慢如蜗牛，更让人头疼的是——文字渲染永远是一塌糊涂？

做海报、表情包、漫画这类需要精准文字的内容时，很多模型输出的结果简直是灾难现场。

好消息来了：百度刚刚开源了一款新的文生图模型 ERNIE-Image。这个模型在多个关键维度上都做到了兼顾，而且最让人惊喜的是——只有 8B 参数，消费级显卡就能跑。

ERNIE-Image 是什么

ERNIE-Image 是百度开源的文本到图像生成模型，基于单一流（Single-flow）的 Diffusion Transformer（DiT） 架构开发。

它的核心设计理念非常清晰：用更小的参数规模，达到更大的效果。

为了实现这个目标，ERNIE-Image 配套了一个轻量级的 Prompt Enhancer（提示词增强器），可以将用户简短的描述自动扩展为更丰富的结构化提示词，让模型更好地理解创作意图。

最硬核的数据：

8B DiT 参数（只有 80 亿）
多个基准测试达到开源文生图模型顶级表现
完全开源、可商用
普通 24G 显存显卡就能运行

这意味着什么？意味着你不需要花几万块买服务器显卡，在家里的 RTX 3090 或者 RTX 4090 上就能跑出专业级效果。

核心能力实测

1. 基准测试屠榜

根据官方的 GenEval 基准测试数据，ERNIE-Image 在多个维度上表现优异：

测试维度	ERNIE-Image	Qwen-Image	FLUX.2-klein-9B
单对象生成	✅	❌	✅
双对象生成	✅	✅	❌
计数准确性	✅	❌	✅
颜色还原	✅	✅	✅
位置关系	✅	❌	❌
属性绑定	✅	✅	✅
综合得分	Top	-	-

整体得分甚至超越了 Qwen-Image 和 FLUX.2-klein-9B 这两个同量级对手。

2. 文字渲染：这次真的行了

这是 ERNIE-Image 最令人惊喜的能力。

在 LongTextBench 基准测试中，它在英文和中文长文本渲染上都取得了极高的分数。

无论你是想生成：

📄 排版密集的公告海报
📝 带有长段文字的信息图
🎨 对布局精确要求的 UI 设计图
📚 中英文混合的技术文档配图

它都能稳定输出高可读性的结果。

这对于做海报、信息图、UI 类图片这类文字密集型视觉内容的创作者来说，简直是刚需级能力。

3. 指令遵循：说啥做啥

ERNIE-Image 能够可靠地理解并执行涉及多个对象、复杂关系和知识密集型描述的复杂提示词。

简单来说：你给出越具体的需求，它越能准确执行。不再是"说了半天，生成一张完全不搭边的图"。

4. 结构化生成：海报漫画都能打

对于海报、漫画、故事板、多格构图这类有明确结构要求的视觉任务，ERNIE-Image 特别擅长。

这些场景需要精确的布局控制——多个角色在画面中的位置关系、对话气泡的排布、分镜之间的逻辑衔接——普通模型在这些场景下经常翻车，ERNIE-Image 表现出色。

5. 风格全覆盖

支持写实摄影、设计导向图像、独特风格化美学等多种风格。插画、漫画、真实照片质感——全都能搞定。

两个版本，怎么选

ERNIE-Image 提供了两个版本，适合不同的使用场景：

📌 ERNIE-Image 标准版

经过 SFT 训练的模型，通用能力和指令遵循能力更强
推理步数：50 步
CFG（Classifier-Free Guidance）：4.0
适合对质量有极致追求的场景

⚡ ERNIE-Image-Turbo（加速版）

经过 DMD 和 RL 优化，速度更快，美学效果更好
推理步数：仅需 8 步！
CFG：1.0
适合需要快速生成、追求效率的场景

8 步 vs 50 步，Turbo 版的生成速度提升非常明显，特别适合需要快速迭代的设计工作流。

快速上手教程

方式一：Diffusers（最简单，适合个人用户）

安装最新版本的 diffusers：

pip install git+https://github.com/huggingface/diffusers
cd diffusers
pip install -e .

ERNIE-Image 标准版（50步）：

import torch
from diffusers import ErnieImagePipeline

pipe = ErnieImagePipeline.from_pretrained(
    "baidu/ERNIE-Image",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="一只黑白相间的中华田园犬",
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=4.0,
    use_pe=True
).images[0]

image.save("output.png")

ERNIE-Image-Turbo 加速版（8步）：

pipe = ErnieImagePipeline.from_pretrained(
    "baidu/ERNIE-Image-Turbo",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="一只黑白相间的中华田园犬",
    height=1024,
    width=1024,
    num_inference_steps=8,
    guidance_scale=1.0,
    use_pe=True
).images[0]

方式二：SGLang（适合服务端部署）

SGLang 提供了两种部署方式：

方法 1：一键部署 ERNIE-Image + Prompt Enhancer

git clone https://github.com/sgl-project/sglang.git
sglang serve --model-path baidu/ERNIE-Image

发送请求：

curl -X POST http://localhost:30000/v1/images/generations \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "一只黑白相间的中华田园犬",
    "height": 1024,
    "width": 1024,
    "num_inference_steps": 50,
    "guidance_scale": 4.0
  }' \
  --output output.png

方法 2：分开部署（进一步提升 PE 推理速度）

也可以选择 ERNIE-Image 和 Prompt Enhancer 分开部署，这样 PE 的推理速度可以进一步优化。

方式三：ComfyUI（图形化操作）

最新版本的 ComfyUI 已经支持 ERNIE-Image 了！你可以在 ComfyUI 中找到 ERNIE-Image-Turbo 的工作流模板，用图形化的方式进行创作，零代码操作。

写在最后

在 AI 文生图这个竞争激烈的赛道上，ERNIE-Image 凭借着均衡的表现成功出圈。

对于创作者来说，这是个好消息。你不需要投入太多硬件成本，就能获得高质量的文生图能力——特别是文字渲染这个痛点，它的表现尤其突出。

做海报不用再为文字乱码头疼，做信息图不用自己手动 P 文字，做漫画分镜可以直接出带字的草稿……

这些以前开源模型做不好的事情，ERNIE-Image 帮你解决了。

GitHub 地址： https://github.com/baidu/ernie-image

如果你觉得这篇文章有用，欢迎分享给更多需要的朋友。

复制全文生成海报

资讯 百度开源 ERNIE-Image：8B 参数挑战文生图第一梯队，24G 显卡就能跑！