Docs2KG:用大模型把 PDF、邮件、Excel 统一建成知识图谱,80% 的企业知识不再沉睡
企业里 80% 的知识困在非结构化文档里——PDF 合同、邮件往来、Excel 数据表、网页文档……每一种格式都有自己的结构,提取信息费时费力,查起来更是大海捞针。
Docs2KG(Document to Knowledge Graph)是 AI4WA 团队开源的一个框架,用大模型把异构文档统一构建成知识图谱,让非结构化数据的检索和探索变得简单。
GitHub: https://github.com/AI4WA/Docs2KG
官网: https://docs2kg.ai4wa.com/
一、Docs2KG 是什么?
Docs2KG 是一个大模型协作的知识图谱构建框架,核心思路:
- 多格式支持:PDF、Word、Excel、邮件、网页,统一解析
- 大模型提取:用 LLM 理解文档语义,提取实体和关系
- 统一知识图谱:将异构文档中的信息融合为一个结构化的知识网络
- 下游任务:问答、推理、数据分析
二、支持的文档类型
| 文档类型 | 提取能力 |
|---|---|
| 文本布局、表格、图表描述 | |
| Word (.docx) | 标题结构、段落、表格 |
| Excel (.xlsx) | 表头、单元格关系、数值特征 |
| 邮件 | 发件人、收件人、主题、正文、附件 |
| 网页 | 结构化内容、链接、Metadata |
每种格式都有专门的解析器,转换为统一的中间表示后,再由大模型进行知识抽取。
三、工作原理
异构文档 → 格式解析器 → 统一中间表示
↓
大模型(LLM)
↓
实体 + 关系抽取
↓
知识图谱(Neo4j/图数据库)
↓
问答 / 推理 / 探索
关键设计:大模型负责理解,规则负责结构。Docs2KG 不只是让 LLM 读文档,它用 LLM 的语义理解能力配合格式的结构化信息,提取出高质量的知识三元组。
四、快速上手
# 安装
pip install Docs2KG
python -m spacy download en_core_web_sm
# 配置
export CONFIG_FILE=config.yml
# 运行
docs2kg
支持代码调用和命令行两种使用方式。
五、适用场景
- 企业知识管理:合同、邮件、报表统一建库
- 合规审计:从大量文档中提取关键实体(人名、金额、日期)进行关系分析
- 文献研究:论文、专利的知识点抽取和关联
- 数据湖探索:对非结构化数据资产进行初步结构化
六、局限性与注意事项
- 依赖大模型 API(OpenAI GPT 或兼容接口),需要配置 Key
- 知识图谱的质量高度依赖 LLM 的实体关系抽取能力
- 适合作为知识管理流水线的一环,而非直接面向业务人员的最终产品
七、总结
Docs2KG 的价值在于把「文档」变成「知识」。对于有大量非结构化文档积累的企业,它是把沉睡知识激活的第一步——先把文档变成图谱,后面的问答、分析、推理才有基础。
相关链接: