资讯 百度开源 ERNIE-Image:8B 参数挑战文生图第一梯队,24G 显卡就能跑!

2026-04-23 16:21:28 +0800 CST views 4

你有没有这样的烦恼:想用开源的 AI 文生图模型,要么显卡要求高得离谱,要么生成速度慢如蜗牛,更让人头疼的是——文字渲染永远是一塌糊涂?

做海报、表情包、漫画这类需要精准文字的内容时,很多模型输出的结果简直是灾难现场。

好消息来了:百度刚刚开源了一款新的文生图模型 ERNIE-Image。这个模型在多个关键维度上都做到了兼顾,而且最让人惊喜的是——只有 8B 参数,消费级显卡就能跑


ERNIE-Image 是什么

ERNIE-Image 是百度开源的文本到图像生成模型,基于单一流(Single-flow)的 Diffusion Transformer(DiT) 架构开发。

它的核心设计理念非常清晰:用更小的参数规模,达到更大的效果。

为了实现这个目标,ERNIE-Image 配套了一个轻量级的 Prompt Enhancer(提示词增强器),可以将用户简短的描述自动扩展为更丰富的结构化提示词,让模型更好地理解创作意图。

最硬核的数据:

  • 8B DiT 参数(只有 80 亿)
  • 多个基准测试达到开源文生图模型顶级表现
  • 完全开源、可商用
  • 普通 24G 显存显卡就能运行

这意味着什么?意味着你不需要花几万块买服务器显卡,在家里的 RTX 3090 或者 RTX 4090 上就能跑出专业级效果。


核心能力实测

1. 基准测试屠榜

根据官方的 GenEval 基准测试数据,ERNIE-Image 在多个维度上表现优异:

测试维度ERNIE-ImageQwen-ImageFLUX.2-klein-9B
单对象生成
双对象生成
计数准确性
颜色还原
位置关系
属性绑定
综合得分Top--

整体得分甚至超越了 Qwen-Image 和 FLUX.2-klein-9B 这两个同量级对手。

2. 文字渲染:这次真的行了

这是 ERNIE-Image 最令人惊喜的能力。

LongTextBench 基准测试中,它在英文和中文长文本渲染上都取得了极高的分数。

无论你是想生成:

  • 📄 排版密集的公告海报
  • 📝 带有长段文字的信息图
  • 🎨 对布局精确要求的 UI 设计图
  • 📚 中英文混合的技术文档配图

它都能稳定输出高可读性的结果。

这对于做海报、信息图、UI 类图片这类文字密集型视觉内容的创作者来说,简直是刚需级能力。

3. 指令遵循:说啥做啥

ERNIE-Image 能够可靠地理解并执行涉及多个对象、复杂关系和知识密集型描述的复杂提示词。

简单来说:你给出越具体的需求,它越能准确执行。不再是"说了半天,生成一张完全不搭边的图"。

4. 结构化生成:海报漫画都能打

对于海报、漫画、故事板、多格构图这类有明确结构要求的视觉任务,ERNIE-Image 特别擅长。

这些场景需要精确的布局控制——多个角色在画面中的位置关系、对话气泡的排布、分镜之间的逻辑衔接——普通模型在这些场景下经常翻车,ERNIE-Image 表现出色。

5. 风格全覆盖

支持写实摄影、设计导向图像、独特风格化美学等多种风格。插画、漫画、真实照片质感——全都能搞定。


两个版本,怎么选

ERNIE-Image 提供了两个版本,适合不同的使用场景:

📌 ERNIE-Image 标准版

  • 经过 SFT 训练的模型,通用能力和指令遵循能力更强
  • 推理步数:50 步
  • CFG(Classifier-Free Guidance):4.0
  • 适合对质量有极致追求的场景

⚡ ERNIE-Image-Turbo(加速版)

  • 经过 DMD 和 RL 优化,速度更快,美学效果更好
  • 推理步数:仅需 8 步!
  • CFG:1.0
  • 适合需要快速生成、追求效率的场景

8 步 vs 50 步,Turbo 版的生成速度提升非常明显,特别适合需要快速迭代的设计工作流。


快速上手教程

方式一:Diffusers(最简单,适合个人用户)

安装最新版本的 diffusers:

pip install git+https://github.com/huggingface/diffusers
cd diffusers
pip install -e .

ERNIE-Image 标准版(50步):

import torch
from diffusers import ErnieImagePipeline

pipe = ErnieImagePipeline.from_pretrained(
    "baidu/ERNIE-Image",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="一只黑白相间的中华田园犬",
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=4.0,
    use_pe=True
).images[0]

image.save("output.png")

ERNIE-Image-Turbo 加速版(8步):

pipe = ErnieImagePipeline.from_pretrained(
    "baidu/ERNIE-Image-Turbo",
    torch_dtype=torch.bfloat16,
).to("cuda")

image = pipe(
    prompt="一只黑白相间的中华田园犬",
    height=1024,
    width=1024,
    num_inference_steps=8,
    guidance_scale=1.0,
    use_pe=True
).images[0]

方式二:SGLang(适合服务端部署)

SGLang 提供了两种部署方式:

方法 1:一键部署 ERNIE-Image + Prompt Enhancer

git clone https://github.com/sgl-project/sglang.git
sglang serve --model-path baidu/ERNIE-Image

发送请求:

curl -X POST http://localhost:30000/v1/images/generations \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "一只黑白相间的中华田园犬",
    "height": 1024,
    "width": 1024,
    "num_inference_steps": 50,
    "guidance_scale": 4.0
  }' \
  --output output.png

方法 2:分开部署(进一步提升 PE 推理速度)

也可以选择 ERNIE-Image 和 Prompt Enhancer 分开部署,这样 PE 的推理速度可以进一步优化。

方式三:ComfyUI(图形化操作)

最新版本的 ComfyUI 已经支持 ERNIE-Image 了!你可以在 ComfyUI 中找到 ERNIE-Image-Turbo 的工作流模板,用图形化的方式进行创作,零代码操作。


写在最后

在 AI 文生图这个竞争激烈的赛道上,ERNIE-Image 凭借着均衡的表现成功出圈。

对于创作者来说,这是个好消息。你不需要投入太多硬件成本,就能获得高质量的文生图能力——特别是文字渲染这个痛点,它的表现尤其突出。

做海报不用再为文字乱码头疼,做信息图不用自己手动 P 文字,做漫画分镜可以直接出带字的草稿……

这些以前开源模型做不好的事情,ERNIE-Image 帮你解决了。

GitHub 地址: https://github.com/baidu/ernie-image


如果你觉得这篇文章有用,欢迎分享给更多需要的朋友。

复制全文 生成海报

推荐文章

H5抖音商城小黄车购物系统
2024-11-19 08:04:29 +0800 CST
Linux 常用进程命令介绍
2024-11-19 05:06:44 +0800 CST
HTML和CSS创建的弹性菜单
2024-11-19 10:09:04 +0800 CST
四舍五入五成双
2024-11-17 05:01:29 +0800 CST
Vue3中如何处理状态管理?
2024-11-17 07:13:45 +0800 CST
前端项目中图片的使用规范
2024-11-19 09:30:04 +0800 CST
介绍 Vue 3 中的新的 `emits` 选项
2024-11-17 04:45:50 +0800 CST
企业官网案例-芊诺网络科技官网
2024-11-18 11:30:20 +0800 CST
回到上次阅读位置技术实践
2025-04-19 09:47:31 +0800 CST
JavaScript设计模式:装饰器模式
2024-11-19 06:05:51 +0800 CST
markdown语法
2024-11-18 18:38:43 +0800 CST
程序员茄子在线接单