RAGFlow:81.1k Star 开源 RAG 引擎,AI 时代的"最强外脑"
标签: RAG / 开源 / LLM / 文档解析 / AI应用 / RAGFlow
原文: 微信公众号「开源那些事儿」https://mp.weixin.qq.com/s/-5KN_KUo4G9TZVPts6GzMQ
GitHub: https://github.com/infiniflow/ragflow
核心亮点
RAGFlow —— 来自 InfiniFlow 团队(Milvus 向量数据库原班人马)的开源 RAG 引擎,81.1k Star,专注解决 RAG 最底层的问题:文档解析。
口号:Quality in, quality out(高质量输入,高质量输出)。
它解决了什么问题?
市面上 RAG 工具的痛点
大多数 RAG 工具的通病:重编排,轻效果。
大家都在拼工作流画布好不好看,却没人解决最底层的问题——文档解析。
如果连 PDF 里的表格都识别不准,后续的大模型再强也是白搭。
这就是典型的 Garbage In, Garbage Out(垃圾进,垃圾出)。
RAGFlow 的切入点是:先把文档解析做对,再谈 RAG。
核心能力
1. DeepDoc —— 深度文档理解(杀手锏)
普通的 RAG 工具拿到文档可能随便撕几页就存起来了。
RAGFlow 的做法是:
- 用视觉模型去"看"文档结构(不只是 OCR 识别文字)
- 精准区分:标题、正文、表格、图片
- 能看懂跨页的复杂表格
- 保证喂给 AI 的数据,逻辑是完整的
2. 可视化切片
- 支持多种模板:论文、简历、手册等
- 可视化地调整文本块的大小和逻辑
- 确保语义不被切断
- 回答问题时一定带引用出处,可直接跳转原文
- 再也不怕 AI "幻觉"满天飞
Agentic RAG:现在的玩法
RAGFlow 已经进化到 Agentic RAG 阶段,不只是问答:
| 能力 | 说明 |
|---|---|
| 代码解释器 | 直接执行代码分析数据 |
| SQL 执行 | 连接数据库查询 |
| 多 Agent 协作 | 编排多个 Agent 协同工作 |
| 复杂工作流 | 智能决策的大脑 |
使用场景
企业级"Copilot"
| 行业 | 场景 |
|---|---|
| 法律 | 分析卷宗,自动提取证据链 |
| 制造业 | 查设备维修手册,"这机器报错代码是啥意思" |
| 金融 | 分析研报、合同,提取关键条款 |
| 政务 | 私有化部署,数据不出域 |
私有化部署
对于金融、政务等对数据极度敏感的行业:
- 完全跑在内网
- 数据不出域,安全感拉满
RAGFlow vs Dify:怎么选?
很多朋友纠结选哪个,其实定位不太一样:
| 维度 | RAGFlow | Dify |
|---|---|---|
| 定位 | 后端/引擎 | 前端/应用 |
| 强项 | 文档处理专家 | 工作流编排、站点发布 |
| 适合数据 | 扫描件、复杂 PDF、Excel | 干净的 Markdown 文本 |
| 核心能力 | 把"乱七八糟"的数据洗干净 | 快速搭建 ChatBot 界面 |
| 典型用户 | 对答案准确性有极致要求 | 想快速上线应用 |
我的建议
如果你追求极致的 RAG 效果,完全可以把 RAGFlow 当作文档处理引擎,把处理好的知识库通过 API 喂给 Dify 或其他前端应用,强强联合!
技术背景
RAGFlow 背后的团队 InfiniFlow:
- 在搜索引擎和数据库领域深耕十多年
- 之前搞过著名的开源向量数据库 Milvus
- 2024 年 4 月 1 日开源 RAGFlow(愚人节,但他们是认真的)
快速体验
# 克隆项目
git clone https://github.com/infiniflow/ragflow.git
cd ragflow
# 启动(Docker Compose)
docker compose -f docker/docker-compose.yml up -d
访问 http://localhost:9380 即可进入系统。
写在最后
RAGFlow 81.1k 的 Star 不是白拿的。
如果你:
- 受够了大模型读不懂复杂 PDF
- 手里的资料是扫描件、复杂表格
- 对答案的准确性和溯源有极致要求
去 GitHub 上 Clone 下来试试,绝对是打开新世界的大门。
GitHub: https://github.com/infiniflow/ragflow
团队: InfiniFlow(Milvus 原班人马)
开源协议: Apache 2.0