案例 Feynman 科研代理：让 AI 自动完成文献综述与论文审计

2026-05-04 22:56:35 +0800 CST views 7

Feynman 科研代理：让 AI 自动完成文献综述与论文审计

来源: Hermes 应用系列（微信公众号）
项目类型: AI 科研智能体框架
发布平台: 程序员茄子（chenxutan.com）
标签: AI科研, 多智能体, 自动化, 文献综述, 论文审计, Hermes

引言

科研的痛点在哪里？不是没数据，也不是没工具，而是整合信息的成本太高。

一篇顶会论文背后，往往需要阅读几十篇参考文献；一个方法的横向对比，需要翻遍各家技术博客、GitHub 仓库、论文附录。这个过程耗时、枯燥，还容易遗漏关键信息。

Feynman 的出现，就是为了解决这个问题。

它是一个开源的 AI 研究智能体（AI research agent），由四个专业智能体组成，能自动完成文献综述、论文审计、实验复现等复杂的科研任务。你可以把它理解为一个"科研生产线"——从收集证据到最终产出，每个环节都有专业角色负责，且全程可追溯。

什么是 Feynman？

Feynman 是 Hermes 生态中的一个科研专项技能包，名字致敬物理学家理查德·费曼（Richard Feynman）——以"用简单语言解释复杂概念"著称。

它的核心设计理念是：科研不是一个人的战斗，而是一个分工协作的流程。因此，Feynman 没有用单个通用 LLM Agent 包揽所有工作，而是拆成了四个专业角色：

智能体	角色	核心职责
Researcher	研究员	证据收集，从论文、网页、代码仓库检索信息
Reviewer	评审员	模拟同行评审，评估证据质量和方法论严谨性
Writer	撰写员	将研究笔记转化为结构化、学术风格的文本
Verifier	核实员	质量门控，确保正确性、完整性和可信度

四个智能体通过文件而非消息进行数据交换，确保职责分离、可追溯和质量可控。

实战演示：SAE 可解释性横向审计

文章给出了一个非常具体的实战案例，完美展示了 Feynman 的工作流程。

出题

用户提问：

"稀疏自编码器（Sparse Autoencoders）提取的 LLM 特征是否真正可解释？——对 Anthropic、DeepMind、OpenAI 三家方法论的横向审计"

这是一个典型的科研审计任务，需要：

找到三家公司的相关论文和开源代码
对比方法论差异
评估可解释性的实际效果
给出结论和建议

执行流程

用户出题
    ↓
Hermes 激活 Feynman 技能包
    ↓
┌─────────────────────────────────────┐
│ Researcher 规范激活                 │
│ → 搜索三家论文、GitHub、技术博客    │
│ → 收集方法论描述、实验数据、代码     │
└─────────────────────────────────────┘
    ↓
┌─────────────────────────────────────┐
│ Reviewer 规范激活                    │
│ → 评估每篇论文的方法学缺陷          │
│ → 对比实验设计的严谨性              │
└─────────────────────────────────────┘
    ↓
┌─────────────────────────────────────┐
│ Writer 规范激活                     │
│ → 实时构建结构化证据表              │
│ → 三家方法论 × 可解释性维度        │
└─────────────────────────────────────┘
    ↓
┌─────────────────────────────────────┐
│ Verifier 规范激活                   │
│ → 验证引用链接有效性                │
│ → 确保声明有证据支撑                │
└─────────────────────────────────────┘
    ↓
输出完整横向审计报告

预期输出结构

Feynman 生成了一份完整的横向审计报告，包含：

执行摘要 - 核心发现与结论
数据收集过程 - 信息来源与筛选标准
Anthropic 方法论详述 - 方法、实现、评估
DeepMind 方法论评估 - 同上
OpenAI 方法论评估 - 同上
三家方法论对比矩阵 - Researcher + Writer 协作
共识与分歧 - Researcher + Reviewer 协作
代码 vs 论文一致性审计（Anthropic） - Verifier 主导
遗留问题与技术债 - Reviewer + Writer 协作
结论 - 综合评估与未来方向

核心结论

审计报告给出的结论很有参考价值：

"Anthropic 在稀疏自编码器可解释性领域处于领先且唯一系统化的地位，其方法论、开源实现、评估体系均完备；DeepMind 与 OpenAI 目前未公开同等规模的 SAE 项目，可能选择了不同的可解释性路径。"

这个案例完美展示了 Feynman 的价值：用系统化的流程，产出可信度高的科研分析结果。

四个智能体深度解析

1. Researcher（研究员）

角色定位：证据收集者

核心原则：不进行分析或结论，只负责检索、筛选和组织信息。

信息来源：

学术论文（arXiv、Google Scholar、PubMed 等）
技术博客和官方文档
GitHub 等代码托管平台
会议slides、视频讲座

输出格式：结构化的证据笔记，包含来源链接、关键信息提取、初步分类

为什么这样设计？ 如果让 Researcher 同时做分析，很容易引入偏见。专门负责收集，才能保证证据的全面性和客观性。

2. Reviewer（评审员）

角色定位：模拟严格的同行评审

核心职责：

评估证据质量（可靠性、相关性、时效性）
检查方法论严谨性（实验设计、对照组、统计方法）
发现逻辑不一致或论证漏洞
提出改进建议

输出格式：评审意见表，针对每个关键发现给出质量评分和质疑点

独特价值：这是 Feynman 区别于通用 LLM Agent 的关键。大多数 AI 写作工具不会主动"挑刺"，而 Reviewer 的存在确保了输出质量。

3. Writer（撰写员）

角色定位：将研究笔记转化为学术文本

核心能力：

遵循 IMRaD 结构（Introduction, Methods, Results, and Discussion）
保持学术写作风格（客观、精确、引用规范）
将零散笔记组织成连贯论述
生成图表描述和结果解释

输出格式：符合学术规范的草稿文档，包含完整引用链

为什么不用通用写作 Agent？ 学术写作有其特殊规范（引用格式、术语使用、论证逻辑），专门的 Writer 更懂这些"科研语言"。

4. Verifier（核实员）

角色定位：质量门控

核心检查项：

正确性：声明是否有证据支撑？数据是否准确？
完整性：是否遗漏关键信息？是否符合任务要求？
可信度：引用链接是否有效？来源是否可靠？
一致性：各部分论述是否自洽？有无矛盾？

输出格式：验证报告，列出通过/未通过的项，附具体说明

最后一道防线：Verifier 确保不合格的草稿不会流入最终输出。这是 Feynman 可信度保障的核心机制。

Feynman 的定位与边界

它是什么？

Feynman 是一个科研工作流编排框架。四个 agent 共同构成一个完整的科研代理系统，单个 agent 单独存在时并不具备完整科研能力，必须组合使用才能发挥价值。

它不是什么？

不是通用 LLM Agent：不擅长闲聊、创意写作、简单查询
不是全自动实验平台：不执行实际实验，侧重文献和方法论分析
不是替代科研人员：而是增强科研效率的工具

适用场景

✅ 强烈推荐：

文献综述（系统性回顾、横向对比）
论文审计（方法论评估、实验复现验证）
技术债盘点（开源项目 vs 论文声明一致性）
技术方向调研（多家公司技术路线对比）

❌ 不太适合：

简单的事实查询（用通用搜索更方便）
快速写作任务（流程较重，耗时更长）
需要实际动手的实验工作

与通用 LLM Agent 的对比

维度	通用 LLM Agent	Feynman 科研代理
任务范围	广泛，啥都能干	专注科研场景
输出可信度	依赖模型本身，难验证	四层验证，可追溯
引用管理	可能幻觉引用	Verifier 强制验证
结构化输出	需要详细 Prompt	内置 IMRaD 结构
同行评审	无	Reviewer 模拟评审
适用场景	通用对话、写作	科研分析、审计

核心差异：通用 Agent 追求"快"，Feynman 追求"准"。前者像瑞士军刀，后者像精密仪器。

技术实现细节

文件驱动的数据交换

Feynman 的一个巧妙设计是：智能体之间通过文件交换数据，而不是消息。

这种设计的好处：

可追溯：每个中间产物都保存在磁盘，出问题可以回溯
可中断恢复：某个环节失败后，可以重跑单个智能体
透明性：人类可以随时检查每个智能体的输出
模块化：替换某个智能体不影响其他部分

典型的数据流：

Researcher 输出 → research_notes.json
                ↓
Reviewer 读取 → 输出 review_comments.json
                ↓
Writer 读取 → 输出 draft_sections/
                ↓
Verifier 读取 → 输出 verification_report.json
                ↓
最终报告生成

在 Hermes 中的集成

Feynman 作为 Hermes 的一个技能包（Skill），遵循 Hermes 的 SKILL.md 规范。这意味着：

可以通过 Hermes 的统一接口调用
享受 Hermes 的上下文管理、工具调用等基础设施
与其他 Hermes 技能（如编程、设计）可以组合使用

实战建议

如果你打算使用 Feynman 做科研任务，建议遵循以下流程：

1. 清晰定义研究问题

Feynman 擅长处理明确、可验证的科研问题。题目越具体，输出质量越高。

好的题目：

"对比 A、B、C 三家公司在 X 技术上的方法论差异"
"审计论文 Y 的实验可复现性"
"梳理 Z 领域近三年的技术演进路径"

不太好的题目：

"聊聊 AI 的最新进展"（太宽泛）
"帮我写篇论文"（缺少具体方向）

2. 预留足够时间

Feynman 比通用 Agent 慢，因为它要跑四个智能体，每个都要思考和验证。一个中等复杂度的任务可能需要 10-30 分钟。

3. 人工审核仍然必要

虽然 Feynman 有 Verifier，但它毕竟还是 AI。关键结论、数据引用、核心论断，仍然需要人工复核。把它当作"科研助手"，而不是"科研替代者"。

4. 善用输出文件

Feynman 生成的中间文件很有价值：

research_notes.json：可以作为后续研究的素材库
review_comments.json：帮你发现思维盲点
verification_report.json：列出需要人工核实的疑点

科研自动化的未来

Feynman 代表了科研自动化的一个重要方向：通过角色分离与强制验证来降低错误率。

想象一下，如果未来每个科研人都有一个 Feynman 助手：

写论文前，先让 Feynman 做一轮文献综述
投稿前，先让 Feynman 跑一遍同行评审模拟
引用他人工作时，先让 Feynman 验证引用准确性

这不会替代科研人员的创造性工作，但会大幅提升科研效率和可信度。

小结

Feynman 科研代理是一个值得关注的 AI 科研工具。它的核心价值在于：

四智能体协作：研究员、评审员、撰写员、核实员各司其职
文件驱动：可追溯、可中断恢复、透明可审计
科研专用：遵循 IMRaD 结构、引用溯源、同行评审模拟
高可信度：四层质量门控，降低错误率和幻觉风险

如果你的任务需要高可信度、可复现、有完整来源链（如本次稀疏自编码器横向审计），Feynman 是最佳选择。如果只是简单查询或快速写作，它可能略显笨重。

Hermes 项目：Feynman 是 Hermes 生态的一部分，GitHub 地址待补充
相关阅读：《Hermes 应用》系列文章

本文首发于「程序员茄子」博客，原文链接：https://chenxutan.com

复制全文生成海报 AI科研多智能体自动化文献综述论文审计 Hermes