编程 RAGFlow：81.1k Star开源RAG引擎，AI时代最强外脑

2026-05-26 13:35:41 +0800 CST views 6

RAGFlow：81.1k Star 开源 RAG 引擎，AI 时代的"最强外脑"

标签: RAG / 开源 / LLM / 文档解析 / AI应用 / RAGFlow
原文: 微信公众号「开源那些事儿」https://mp.weixin.qq.com/s/-5KN_KUo4G9TZVPts6GzMQ
GitHub: https://github.com/infiniflow/ragflow

核心亮点

RAGFlow —— 来自 InfiniFlow 团队（Milvus 向量数据库原班人马）的开源 RAG 引擎，81.1k Star，专注解决 RAG 最底层的问题：文档解析。

口号：Quality in, quality out（高质量输入，高质量输出）。

它解决了什么问题？

市面上 RAG 工具的痛点

大多数 RAG 工具的通病：重编排，轻效果。

大家都在拼工作流画布好不好看，却没人解决最底层的问题——文档解析。

如果连 PDF 里的表格都识别不准，后续的大模型再强也是白搭。
这就是典型的 Garbage In, Garbage Out（垃圾进，垃圾出）。

RAGFlow 的切入点是：先把文档解析做对，再谈 RAG。

核心能力

1. DeepDoc —— 深度文档理解（杀手锏）

普通的 RAG 工具拿到文档可能随便撕几页就存起来了。

RAGFlow 的做法是：

用视觉模型去"看"文档结构（不只是 OCR 识别文字）
精准区分：标题、正文、表格、图片
能看懂跨页的复杂表格
保证喂给 AI 的数据，逻辑是完整的

2. 可视化切片

支持多种模板：论文、简历、手册等
可视化地调整文本块的大小和逻辑
确保语义不被切断
回答问题时一定带引用出处，可直接跳转原文
再也不怕 AI "幻觉"满天飞

Agentic RAG：现在的玩法

RAGFlow 已经进化到 Agentic RAG 阶段，不只是问答：

能力	说明
代码解释器	直接执行代码分析数据
SQL 执行	连接数据库查询
多 Agent 协作	编排多个 Agent 协同工作
复杂工作流	智能决策的大脑

使用场景

企业级"Copilot"

行业	场景
法律	分析卷宗，自动提取证据链
制造业	查设备维修手册，"这机器报错代码是啥意思"
金融	分析研报、合同，提取关键条款
政务	私有化部署，数据不出域

私有化部署

对于金融、政务等对数据极度敏感的行业：

完全跑在内网
数据不出域，安全感拉满

RAGFlow vs Dify：怎么选？

很多朋友纠结选哪个，其实定位不太一样：

维度	RAGFlow	Dify
定位	后端/引擎	前端/应用
强项	文档处理专家	工作流编排、站点发布
适合数据	扫描件、复杂 PDF、Excel	干净的 Markdown 文本
核心能力	把"乱七八糟"的数据洗干净	快速搭建 ChatBot 界面
典型用户	对答案准确性有极致要求	想快速上线应用

我的建议

如果你追求极致的 RAG 效果，完全可以把 RAGFlow 当作文档处理引擎，把处理好的知识库通过 API 喂给 Dify 或其他前端应用，强强联合！

技术背景

RAGFlow 背后的团队 InfiniFlow：

在搜索引擎和数据库领域深耕十多年
之前搞过著名的开源向量数据库 Milvus
2024 年 4 月 1 日开源 RAGFlow（愚人节，但他们是认真的）

快速体验

# 克隆项目
git clone https://github.com/infiniflow/ragflow.git
cd ragflow

# 启动（Docker Compose）
docker compose -f docker/docker-compose.yml up -d

访问 http://localhost:9380 即可进入系统。

写在最后

RAGFlow 81.1k 的 Star 不是白拿的。

如果你：

受够了大模型读不懂复杂 PDF
手里的资料是扫描件、复杂表格
对答案的准确性和溯源有极致要求

去 GitHub 上 Clone 下来试试，绝对是打开新世界的大门。

GitHub: https://github.com/infiniflow/ragflow
团队: InfiniFlow（Milvus 原班人马）
开源协议: Apache 2.0

复制全文生成海报 RAG 开源 LLM 文档解析 AI应用 RAGFlow InfiniFlow Milvus

2026-05-19 08:27:11 +0800 CST

24k Star！Gin+Vue3全栈开发平台，内置AI代码生成，一分钟搞定CRUD

2026-02-22 08:28:22 +0800 CST

移动端适配完全指南：8大常见兼容问题与解决方案

2025-08-16 08:56:31 +0800 CST

PHP异常处理新范式：全局异常处理机制详解

2025-03-28 08:41:25 +0800 CST

Karpathy AutoResearch 深度解析：630行代码如何让AI学会「自己做研究」

2026-04-23 10:51:04 +0800 CST

VibeVoice 深度解析：微软开源语音AI的架构革命，7.5Hz帧率如何重塑长音频处理范式

2026-04-22 01:51:38 +0800 CST

Vincent是一个基于Python的数据可视化库，旨在通过简单的代码快速生成复杂的图表

2024-11-19 04:09:19 +0800 CST

OpenHuman 深度实战：用 Rust 构建个人 AI 操作系统——从记忆树到模型路由，登顶 GitHub Trending 的技术内幕

2026-05-16 07:44:37 +0800 CST

Go 泛型深度解析：从语法设计到高性能实战（2026版）

2026-05-18 22:47:39 +0800 CST

VMark深度解析：为AI时代打造的本地优先Markdown编辑器

2026-04-27 20:09:26 +0800 CST

eBPF 深度实战：从内核观测到云原生革命——2026 年 Linux 内核编程与性能优化完全指南

2026-05-24 22:23:48 +0800 CST

DuckDB Quack 协议深度实战：从嵌入式分析到分布式多写者的架构进化

2026-05-22 06:50:01 +0800 CST

给 AI 装上工程肌肉记忆：Superpowers 全栈实战指南——14 个 Skill 如何让编程 Agent 从「快手实习生」进化为靠谱工程师

2026-05-17 11:12:52 +0800 CST

Vue3中的Store模式有哪些改进？

2024-11-18 11:47:53 +0800 CST

DBCooker深度解析：当大语言模型学会给数据库「写代码」，SIGMOD 2026 论文揭示的自动化革命

2026-04-23 03:10:18 +0800 CST

Redis和Memcached有什么区别？

2024-11-18 17:57:13 +0800 CST

Google TimesFM 深度解析：14K Star 的时间序列基础模型如何用 200M 参数颠覆零样本预测

2026-04-28 18:22:55 +0800 CST

告别登录过期！无感刷新Token实战指南，让用户体验丝般顺滑

2025-08-30 15:24:06 +0800 CST

使用page-skeleton-webpack-plugin生成骨架屏提示Cannot read property 'newPage' of null"解决办法

2024-11-17 05:02:46 +0800 CST

1.6万亿参数，1M上下文，仅需27%算力：DeepSeek-V4-Pro 如何重新定义长文本推理

2026-05-11 10:53:54 +0800 CST

Rust API 服务器：发送和接收字节数据

2024-11-18 18:17:46 +0800 CST

liunx服务器监控workerman进程守护

2024-11-18 13:28:44 +0800 CST

一个开源的为图像添加水印的Web应用，允许用户自定义水印的文本、颜色、样式和设置

2024-11-19 06:43:01 +0800 CST

Go 微服务开发框架，集成自动代码生成、Gin 和 GRPC

2024-11-19 04:12:23 +0800 CST

JavaScript设计模式：适配器模式

2024-11-18 17:51:43 +0800 CST

MySQL 日志详解

2024-11-19 02:17:30 +0800 CST

玄铁C930深度解析：RISC-V如何从「嵌入式玩具」跨越到「服务器级选手」——一场开源芯片的工业革命

2026-04-13 01:56:29 +0800 CST

#免密码登录服务器

2024-11-19 04:29:52 +0800 CST

一个有趣的进度条

2024-11-19 09:56:04 +0800 CST

TypeScript 7.0 深度实战：微软用 Go 重写编译器的架构革命——从 Corsa 移植策略到生产级性能调优的完整指南

2026-05-21 19:23:23 +0800 CST

Vite+ Alpha 深度解析：VoidZero 如何用 Rust + 统一入口重新定义前端工具链

2026-05-04 01:53:46 +0800 CST

响应式设计已死？流体布局才是未来！

2025-03-12 18:30:00 +0800 CST

前端动画神器 Uiverse.io：复制粘贴即可为所欲为！

2025-07-07 17:55:15 +0800 CST

WebAssembly：前端开发的性能加速利器

2025-08-27 08:32:56 +0800 CST

`tree` 是一个命令行工具，用于以树状结构显示目录内容

2024-11-19 05:38:41 +0800 CST

告别PS！Vue-Cropper终极指南：在Web端实现专业级图片裁剪与优化

2025-09-01 07:37:45 +0800 CST

ClickHouse 26.x 深度解析：2026 年分析型数据库的全面进化，从性能冠军到 AI 时代的数据基础设施

2026-05-15 06:42:15 +0800 CST

Go 语言 iota 解密：小设计解决大问题的智慧

2025-07-11 12:37:30 +0800 CST

DockerUI和Portainer是两款流行的Docker可视化管理工具

2024-11-19 04:54:55 +0800 CST

WWDC 2026 深度前瞻：从「雪豹式」iOS 27 到 AI 原生 Swift——苹果开发者生态的范式迁移

2026-05-22 07:49:46 +0800 CST

Zig 语言 0.16.0 深度解析：当无隐藏魔法遇上系统编程的范式革命

2026-04-15 16:51:14 +0800 CST

在Vue3项目中使用Pinia进行状态管理。Pinia是Vuex的替代品，提供简单易用的API和良好的TypeScript支持

2024-11-18 15:06:40 +0800 CST

Vue中的路由懒加载是什么？如何实现懒加载？

2024-11-18 10:18:19 +0800 CST

维护网站维护费一年多少钱？

2024-11-19 08:05:52 +0800 CST

Rust 异步编程深度剖析：从 Future 状态机到 Tokio 调度器的全链路实战

2026-04-29 05:10:14 +0800 CST

pgvector 向量检索与 AI 原生 PostgreSQL 深度实战：HNSW 调优、混合检索与生产级 RAG 全指南

2026-05-22 23:16:56 +0800 CST

Hermes Agent 深度实战：自我进化的 AI Agent 架构与生产级实践——从 NousResearch 15万星项目中看 AI 编程伙伴的新范式

2026-05-22 13:17:11 +0800 CST

掌握现代 Web API：2024 年强大浏览器功能指南

2024-11-18 00:58:04 +0800 CST

PostgreSQL 17 深度解析：从 JSON_TABLE 到增量备份，2026年最值得升级的数据库新特性

2026-05-18 18:16:08 +0800 CST

Claude Mythos Preview 深度解析：当 AI 成为漏洞挖掘机，网络安全格局的范式转移

2026-04-12 17:55:58 +0800 CST