案例 Feynman 科研代理:让 AI 自动完成文献综述与论文审计

2026-05-04 22:56:35 +0800 CST views 7

Feynman 科研代理:让 AI 自动完成文献综述与论文审计

来源: Hermes 应用系列(微信公众号)
项目类型: AI 科研智能体框架
发布平台: 程序员茄子(chenxutan.com)
标签: AI科研, 多智能体, 自动化, 文献综述, 论文审计, Hermes


引言

科研的痛点在哪里?不是没数据,也不是没工具,而是整合信息的成本太高

一篇顶会论文背后,往往需要阅读几十篇参考文献;一个方法的横向对比,需要翻遍各家技术博客、GitHub 仓库、论文附录。这个过程耗时、枯燥,还容易遗漏关键信息。

Feynman 的出现,就是为了解决这个问题。

它是一个开源的 AI 研究智能体(AI research agent),由四个专业智能体组成,能自动完成文献综述、论文审计、实验复现等复杂的科研任务。你可以把它理解为一个"科研生产线"——从收集证据到最终产出,每个环节都有专业角色负责,且全程可追溯。


什么是 Feynman?

Feynman 是 Hermes 生态中的一个科研专项技能包,名字致敬物理学家理查德·费曼(Richard Feynman)——以"用简单语言解释复杂概念"著称。

它的核心设计理念是:科研不是一个人的战斗,而是一个分工协作的流程。因此,Feynman 没有用单个通用 LLM Agent 包揽所有工作,而是拆成了四个专业角色:

智能体角色核心职责
Researcher研究员证据收集,从论文、网页、代码仓库检索信息
Reviewer评审员模拟同行评审,评估证据质量和方法论严谨性
Writer撰写员将研究笔记转化为结构化、学术风格的文本
Verifier核实员质量门控,确保正确性、完整性和可信度

四个智能体通过文件而非消息进行数据交换,确保职责分离、可追溯和质量可控。


实战演示:SAE 可解释性横向审计

文章给出了一个非常具体的实战案例,完美展示了 Feynman 的工作流程。

出题

用户提问:

"稀疏自编码器(Sparse Autoencoders)提取的 LLM 特征是否真正可解释?——对 Anthropic、DeepMind、OpenAI 三家方法论的横向审计"

这是一个典型的科研审计任务,需要:

  • 找到三家公司的相关论文和开源代码
  • 对比方法论差异
  • 评估可解释性的实际效果
  • 给出结论和建议

执行流程

用户出题
    ↓
Hermes 激活 Feynman 技能包
    ↓
┌─────────────────────────────────────┐
│ Researcher 规范激活                 │
│ → 搜索三家论文、GitHub、技术博客    │
│ → 收集方法论描述、实验数据、代码     │
└─────────────────────────────────────┘
    ↓
┌─────────────────────────────────────┐
│ Reviewer 规范激活                    │
│ → 评估每篇论文的方法学缺陷          │
│ → 对比实验设计的严谨性              │
└─────────────────────────────────────┘
    ↓
┌─────────────────────────────────────┐
│ Writer 规范激活                     │
│ → 实时构建结构化证据表              │
│ → 三家方法论 × 可解释性维度        │
└─────────────────────────────────────┘
    ↓
┌─────────────────────────────────────┐
│ Verifier 规范激活                   │
│ → 验证引用链接有效性                │
│ → 确保声明有证据支撑                │
└─────────────────────────────────────┘
    ↓
输出完整横向审计报告

预期输出结构

Feynman 生成了一份完整的横向审计报告,包含:

  1. 执行摘要 - 核心发现与结论
  2. 数据收集过程 - 信息来源与筛选标准
  3. Anthropic 方法论详述 - 方法、实现、评估
  4. DeepMind 方法论评估 - 同上
  5. OpenAI 方法论评估 - 同上
  6. 三家方法论对比矩阵 - Researcher + Writer 协作
  7. 共识与分歧 - Researcher + Reviewer 协作
  8. 代码 vs 论文一致性审计(Anthropic) - Verifier 主导
  9. 遗留问题与技术债 - Reviewer + Writer 协作
  10. 结论 - 综合评估与未来方向

核心结论

审计报告给出的结论很有参考价值:

"Anthropic 在稀疏自编码器可解释性领域处于领先且唯一系统化的地位,其方法论、开源实现、评估体系均完备;DeepMind 与 OpenAI 目前未公开同等规模的 SAE 项目,可能选择了不同的可解释性路径。"

这个案例完美展示了 Feynman 的价值:用系统化的流程,产出可信度高的科研分析结果


四个智能体深度解析

1. Researcher(研究员)

角色定位:证据收集者

核心原则:不进行分析或结论,只负责检索、筛选和组织信息。

信息来源

  • 学术论文(arXiv、Google Scholar、PubMed 等)
  • 技术博客和官方文档
  • GitHub 等代码托管平台
  • 会议slides、视频讲座

输出格式:结构化的证据笔记,包含来源链接、关键信息提取、初步分类

为什么这样设计? 如果让 Researcher 同时做分析,很容易引入偏见。专门负责收集,才能保证证据的全面性和客观性。

2. Reviewer(评审员)

角色定位:模拟严格的同行评审

核心职责

  • 评估证据质量(可靠性、相关性、时效性)
  • 检查方法论严谨性(实验设计、对照组、统计方法)
  • 发现逻辑不一致或论证漏洞
  • 提出改进建议

输出格式:评审意见表,针对每个关键发现给出质量评分和质疑点

独特价值:这是 Feynman 区别于通用 LLM Agent 的关键。大多数 AI 写作工具不会主动"挑刺",而 Reviewer 的存在确保了输出质量。

3. Writer(撰写员)

角色定位:将研究笔记转化为学术文本

核心能力

  • 遵循 IMRaD 结构(Introduction, Methods, Results, and Discussion)
  • 保持学术写作风格(客观、精确、引用规范)
  • 将零散笔记组织成连贯论述
  • 生成图表描述和结果解释

输出格式:符合学术规范的草稿文档,包含完整引用链

为什么不用通用写作 Agent? 学术写作有其特殊规范(引用格式、术语使用、论证逻辑),专门的 Writer 更懂这些"科研语言"。

4. Verifier(核实员)

角色定位:质量门控

核心检查项

  • 正确性:声明是否有证据支撑?数据是否准确?
  • 完整性:是否遗漏关键信息?是否符合任务要求?
  • 可信度:引用链接是否有效?来源是否可靠?
  • 一致性:各部分论述是否自洽?有无矛盾?

输出格式:验证报告,列出通过/未通过的项,附具体说明

最后一道防线:Verifier 确保不合格的草稿不会流入最终输出。这是 Feynman 可信度保障的核心机制。


Feynman 的定位与边界

它是什么?

Feynman 是一个科研工作流编排框架。四个 agent 共同构成一个完整的科研代理系统,单个 agent 单独存在时并不具备完整科研能力,必须组合使用才能发挥价值

它不是什么?

  • 不是通用 LLM Agent:不擅长闲聊、创意写作、简单查询
  • 不是全自动实验平台:不执行实际实验,侧重文献和方法论分析
  • 不是替代科研人员:而是增强科研效率的工具

适用场景

强烈推荐

  • 文献综述(系统性回顾、横向对比)
  • 论文审计(方法论评估、实验复现验证)
  • 技术债盘点(开源项目 vs 论文声明一致性)
  • 技术方向调研(多家公司技术路线对比)

不太适合

  • 简单的事实查询(用通用搜索更方便)
  • 快速写作任务(流程较重,耗时更长)
  • 需要实际动手的实验工作

与通用 LLM Agent 的对比

维度通用 LLM AgentFeynman 科研代理
任务范围广泛,啥都能干专注科研场景
输出可信度依赖模型本身,难验证四层验证,可追溯
引用管理可能幻觉引用Verifier 强制验证
结构化输出需要详细 Prompt内置 IMRaD 结构
同行评审Reviewer 模拟评审
适用场景通用对话、写作科研分析、审计

核心差异:通用 Agent 追求"快",Feynman 追求"准"。前者像瑞士军刀,后者像精密仪器。


技术实现细节

文件驱动的数据交换

Feynman 的一个巧妙设计是:智能体之间通过文件交换数据,而不是消息

这种设计的好处:

  • 可追溯:每个中间产物都保存在磁盘,出问题可以回溯
  • 可中断恢复:某个环节失败后,可以重跑单个智能体
  • 透明性:人类可以随时检查每个智能体的输出
  • 模块化:替换某个智能体不影响其他部分

典型的数据流:

Researcher 输出 → research_notes.json
                ↓
Reviewer 读取 → 输出 review_comments.json
                ↓
Writer 读取 → 输出 draft_sections/
                ↓
Verifier 读取 → 输出 verification_report.json
                ↓
最终报告生成

在 Hermes 中的集成

Feynman 作为 Hermes 的一个技能包(Skill),遵循 Hermes 的 SKILL.md 规范。这意味着:

  • 可以通过 Hermes 的统一接口调用
  • 享受 Hermes 的上下文管理、工具调用等基础设施
  • 与其他 Hermes 技能(如编程、设计)可以组合使用

实战建议

如果你打算使用 Feynman 做科研任务,建议遵循以下流程:

1. 清晰定义研究问题

Feynman 擅长处理明确、可验证的科研问题。题目越具体,输出质量越高。

好的题目

  • "对比 A、B、C 三家公司在 X 技术上的方法论差异"
  • "审计论文 Y 的实验可复现性"
  • "梳理 Z 领域近三年的技术演进路径"

不太好的题目

  • "聊聊 AI 的最新进展"(太宽泛)
  • "帮我写篇论文"(缺少具体方向)

2. 预留足够时间

Feynman 比通用 Agent 慢,因为它要跑四个智能体,每个都要思考和验证。一个中等复杂度的任务可能需要 10-30 分钟。

3. 人工审核仍然必要

虽然 Feynman 有 Verifier,但它毕竟还是 AI。关键结论、数据引用、核心论断,仍然需要人工复核。把它当作"科研助手",而不是"科研替代者"。

4. 善用输出文件

Feynman 生成的中间文件很有价值:

  • research_notes.json:可以作为后续研究的素材库
  • review_comments.json:帮你发现思维盲点
  • verification_report.json:列出需要人工核实的疑点

科研自动化的未来

Feynman 代表了科研自动化的一个重要方向:通过角色分离与强制验证来降低错误率

想象一下,如果未来每个科研人都有一个 Feynman 助手:

  • 写论文前,先让 Feynman 做一轮文献综述
  • 投稿前,先让 Feynman 跑一遍同行评审模拟
  • 引用他人工作时,先让 Feynman 验证引用准确性

这不会替代科研人员的创造性工作,但会大幅提升科研效率和可信度


小结

Feynman 科研代理是一个值得关注的 AI 科研工具。它的核心价值在于:

  • 四智能体协作:研究员、评审员、撰写员、核实员各司其职
  • 文件驱动:可追溯、可中断恢复、透明可审计
  • 科研专用:遵循 IMRaD 结构、引用溯源、同行评审模拟
  • 高可信度:四层质量门控,降低错误率和幻觉风险

如果你的任务需要高可信度、可复现、有完整来源链(如本次稀疏自编码器横向审计),Feynman 是最佳选择。如果只是简单查询或快速写作,它可能略显笨重。


Hermes 项目:Feynman 是 Hermes 生态的一部分,GitHub 地址待补充
相关阅读:《Hermes 应用》系列文章


本文首发于「程序员茄子」博客,原文链接:https://chenxutan.com

推荐文章

纯CSS实现3D云动画效果
2024-11-18 18:48:05 +0800 CST
PHP 8.4 中的新数组函数
2024-11-19 08:33:52 +0800 CST
js函数常见的写法以及调用方法
2024-11-19 08:55:17 +0800 CST
支付页面html收银台
2025-03-06 14:59:20 +0800 CST
一文详解回调地狱
2024-11-19 05:05:31 +0800 CST
HTML + CSS 实现微信钱包界面
2024-11-18 14:59:25 +0800 CST
liunx服务器监控workerman进程守护
2024-11-18 13:28:44 +0800 CST
Requests库详细介绍
2024-11-18 05:53:37 +0800 CST
php curl并发代码
2024-11-18 01:45:03 +0800 CST
程序员茄子在线接单