Feynman 科研代理:让 AI 自动完成文献综述与论文审计
来源: Hermes 应用系列(微信公众号)
项目类型: AI 科研智能体框架
发布平台: 程序员茄子(chenxutan.com)
标签: AI科研, 多智能体, 自动化, 文献综述, 论文审计, Hermes
引言
科研的痛点在哪里?不是没数据,也不是没工具,而是整合信息的成本太高。
一篇顶会论文背后,往往需要阅读几十篇参考文献;一个方法的横向对比,需要翻遍各家技术博客、GitHub 仓库、论文附录。这个过程耗时、枯燥,还容易遗漏关键信息。
Feynman 的出现,就是为了解决这个问题。
它是一个开源的 AI 研究智能体(AI research agent),由四个专业智能体组成,能自动完成文献综述、论文审计、实验复现等复杂的科研任务。你可以把它理解为一个"科研生产线"——从收集证据到最终产出,每个环节都有专业角色负责,且全程可追溯。
什么是 Feynman?
Feynman 是 Hermes 生态中的一个科研专项技能包,名字致敬物理学家理查德·费曼(Richard Feynman)——以"用简单语言解释复杂概念"著称。
它的核心设计理念是:科研不是一个人的战斗,而是一个分工协作的流程。因此,Feynman 没有用单个通用 LLM Agent 包揽所有工作,而是拆成了四个专业角色:
| 智能体 | 角色 | 核心职责 |
|---|---|---|
| Researcher | 研究员 | 证据收集,从论文、网页、代码仓库检索信息 |
| Reviewer | 评审员 | 模拟同行评审,评估证据质量和方法论严谨性 |
| Writer | 撰写员 | 将研究笔记转化为结构化、学术风格的文本 |
| Verifier | 核实员 | 质量门控,确保正确性、完整性和可信度 |
四个智能体通过文件而非消息进行数据交换,确保职责分离、可追溯和质量可控。
实战演示:SAE 可解释性横向审计
文章给出了一个非常具体的实战案例,完美展示了 Feynman 的工作流程。
出题
用户提问:
"稀疏自编码器(Sparse Autoencoders)提取的 LLM 特征是否真正可解释?——对 Anthropic、DeepMind、OpenAI 三家方法论的横向审计"
这是一个典型的科研审计任务,需要:
- 找到三家公司的相关论文和开源代码
- 对比方法论差异
- 评估可解释性的实际效果
- 给出结论和建议
执行流程
用户出题
↓
Hermes 激活 Feynman 技能包
↓
┌─────────────────────────────────────┐
│ Researcher 规范激活 │
│ → 搜索三家论文、GitHub、技术博客 │
│ → 收集方法论描述、实验数据、代码 │
└─────────────────────────────────────┘
↓
┌─────────────────────────────────────┐
│ Reviewer 规范激活 │
│ → 评估每篇论文的方法学缺陷 │
│ → 对比实验设计的严谨性 │
└─────────────────────────────────────┘
↓
┌─────────────────────────────────────┐
│ Writer 规范激活 │
│ → 实时构建结构化证据表 │
│ → 三家方法论 × 可解释性维度 │
└─────────────────────────────────────┘
↓
┌─────────────────────────────────────┐
│ Verifier 规范激活 │
│ → 验证引用链接有效性 │
│ → 确保声明有证据支撑 │
└─────────────────────────────────────┘
↓
输出完整横向审计报告
预期输出结构
Feynman 生成了一份完整的横向审计报告,包含:
- 执行摘要 - 核心发现与结论
- 数据收集过程 - 信息来源与筛选标准
- Anthropic 方法论详述 - 方法、实现、评估
- DeepMind 方法论评估 - 同上
- OpenAI 方法论评估 - 同上
- 三家方法论对比矩阵 - Researcher + Writer 协作
- 共识与分歧 - Researcher + Reviewer 协作
- 代码 vs 论文一致性审计(Anthropic) - Verifier 主导
- 遗留问题与技术债 - Reviewer + Writer 协作
- 结论 - 综合评估与未来方向
核心结论
审计报告给出的结论很有参考价值:
"Anthropic 在稀疏自编码器可解释性领域处于领先且唯一系统化的地位,其方法论、开源实现、评估体系均完备;DeepMind 与 OpenAI 目前未公开同等规模的 SAE 项目,可能选择了不同的可解释性路径。"
这个案例完美展示了 Feynman 的价值:用系统化的流程,产出可信度高的科研分析结果。
四个智能体深度解析
1. Researcher(研究员)
角色定位:证据收集者
核心原则:不进行分析或结论,只负责检索、筛选和组织信息。
信息来源:
- 学术论文(arXiv、Google Scholar、PubMed 等)
- 技术博客和官方文档
- GitHub 等代码托管平台
- 会议slides、视频讲座
输出格式:结构化的证据笔记,包含来源链接、关键信息提取、初步分类
为什么这样设计? 如果让 Researcher 同时做分析,很容易引入偏见。专门负责收集,才能保证证据的全面性和客观性。
2. Reviewer(评审员)
角色定位:模拟严格的同行评审
核心职责:
- 评估证据质量(可靠性、相关性、时效性)
- 检查方法论严谨性(实验设计、对照组、统计方法)
- 发现逻辑不一致或论证漏洞
- 提出改进建议
输出格式:评审意见表,针对每个关键发现给出质量评分和质疑点
独特价值:这是 Feynman 区别于通用 LLM Agent 的关键。大多数 AI 写作工具不会主动"挑刺",而 Reviewer 的存在确保了输出质量。
3. Writer(撰写员)
角色定位:将研究笔记转化为学术文本
核心能力:
- 遵循 IMRaD 结构(Introduction, Methods, Results, and Discussion)
- 保持学术写作风格(客观、精确、引用规范)
- 将零散笔记组织成连贯论述
- 生成图表描述和结果解释
输出格式:符合学术规范的草稿文档,包含完整引用链
为什么不用通用写作 Agent? 学术写作有其特殊规范(引用格式、术语使用、论证逻辑),专门的 Writer 更懂这些"科研语言"。
4. Verifier(核实员)
角色定位:质量门控
核心检查项:
- 正确性:声明是否有证据支撑?数据是否准确?
- 完整性:是否遗漏关键信息?是否符合任务要求?
- 可信度:引用链接是否有效?来源是否可靠?
- 一致性:各部分论述是否自洽?有无矛盾?
输出格式:验证报告,列出通过/未通过的项,附具体说明
最后一道防线:Verifier 确保不合格的草稿不会流入最终输出。这是 Feynman 可信度保障的核心机制。
Feynman 的定位与边界
它是什么?
Feynman 是一个科研工作流编排框架。四个 agent 共同构成一个完整的科研代理系统,单个 agent 单独存在时并不具备完整科研能力,必须组合使用才能发挥价值。
它不是什么?
- 不是通用 LLM Agent:不擅长闲聊、创意写作、简单查询
- 不是全自动实验平台:不执行实际实验,侧重文献和方法论分析
- 不是替代科研人员:而是增强科研效率的工具
适用场景
✅ 强烈推荐:
- 文献综述(系统性回顾、横向对比)
- 论文审计(方法论评估、实验复现验证)
- 技术债盘点(开源项目 vs 论文声明一致性)
- 技术方向调研(多家公司技术路线对比)
❌ 不太适合:
- 简单的事实查询(用通用搜索更方便)
- 快速写作任务(流程较重,耗时更长)
- 需要实际动手的实验工作
与通用 LLM Agent 的对比
| 维度 | 通用 LLM Agent | Feynman 科研代理 |
|---|---|---|
| 任务范围 | 广泛,啥都能干 | 专注科研场景 |
| 输出可信度 | 依赖模型本身,难验证 | 四层验证,可追溯 |
| 引用管理 | 可能幻觉引用 | Verifier 强制验证 |
| 结构化输出 | 需要详细 Prompt | 内置 IMRaD 结构 |
| 同行评审 | 无 | Reviewer 模拟评审 |
| 适用场景 | 通用对话、写作 | 科研分析、审计 |
核心差异:通用 Agent 追求"快",Feynman 追求"准"。前者像瑞士军刀,后者像精密仪器。
技术实现细节
文件驱动的数据交换
Feynman 的一个巧妙设计是:智能体之间通过文件交换数据,而不是消息。
这种设计的好处:
- 可追溯:每个中间产物都保存在磁盘,出问题可以回溯
- 可中断恢复:某个环节失败后,可以重跑单个智能体
- 透明性:人类可以随时检查每个智能体的输出
- 模块化:替换某个智能体不影响其他部分
典型的数据流:
Researcher 输出 → research_notes.json
↓
Reviewer 读取 → 输出 review_comments.json
↓
Writer 读取 → 输出 draft_sections/
↓
Verifier 读取 → 输出 verification_report.json
↓
最终报告生成
在 Hermes 中的集成
Feynman 作为 Hermes 的一个技能包(Skill),遵循 Hermes 的 SKILL.md 规范。这意味着:
- 可以通过 Hermes 的统一接口调用
- 享受 Hermes 的上下文管理、工具调用等基础设施
- 与其他 Hermes 技能(如编程、设计)可以组合使用
实战建议
如果你打算使用 Feynman 做科研任务,建议遵循以下流程:
1. 清晰定义研究问题
Feynman 擅长处理明确、可验证的科研问题。题目越具体,输出质量越高。
好的题目:
- "对比 A、B、C 三家公司在 X 技术上的方法论差异"
- "审计论文 Y 的实验可复现性"
- "梳理 Z 领域近三年的技术演进路径"
不太好的题目:
- "聊聊 AI 的最新进展"(太宽泛)
- "帮我写篇论文"(缺少具体方向)
2. 预留足够时间
Feynman 比通用 Agent 慢,因为它要跑四个智能体,每个都要思考和验证。一个中等复杂度的任务可能需要 10-30 分钟。
3. 人工审核仍然必要
虽然 Feynman 有 Verifier,但它毕竟还是 AI。关键结论、数据引用、核心论断,仍然需要人工复核。把它当作"科研助手",而不是"科研替代者"。
4. 善用输出文件
Feynman 生成的中间文件很有价值:
research_notes.json:可以作为后续研究的素材库review_comments.json:帮你发现思维盲点verification_report.json:列出需要人工核实的疑点
科研自动化的未来
Feynman 代表了科研自动化的一个重要方向:通过角色分离与强制验证来降低错误率。
想象一下,如果未来每个科研人都有一个 Feynman 助手:
- 写论文前,先让 Feynman 做一轮文献综述
- 投稿前,先让 Feynman 跑一遍同行评审模拟
- 引用他人工作时,先让 Feynman 验证引用准确性
这不会替代科研人员的创造性工作,但会大幅提升科研效率和可信度。
小结
Feynman 科研代理是一个值得关注的 AI 科研工具。它的核心价值在于:
- 四智能体协作:研究员、评审员、撰写员、核实员各司其职
- 文件驱动:可追溯、可中断恢复、透明可审计
- 科研专用:遵循 IMRaD 结构、引用溯源、同行评审模拟
- 高可信度:四层质量门控,降低错误率和幻觉风险
如果你的任务需要高可信度、可复现、有完整来源链(如本次稀疏自编码器横向审计),Feynman 是最佳选择。如果只是简单查询或快速写作,它可能略显笨重。
Hermes 项目:Feynman 是 Hermes 生态的一部分,GitHub 地址待补充
相关阅读:《Hermes 应用》系列文章
本文首发于「程序员茄子」博客,原文链接:https://chenxutan.com