自进化多智能体 AI 科学家框架,实现从研究想法到论文产出的端到端科学发现自动化。
项目概述#
EvoScientist 是一个基于多智能体协作的 AI 科研自动化框架,覆盖科学研究完整生命周期:Intake → Plan → Execute → Evaluate → Write → Verify。其核心理念是让 AI 智能体在自主探索中生成洞见并迭代改进,通过持久化记忆和自进化机制持续积累研究经验。
多智能体协作体系#
- 6 子智能体分工:planner-agent、research-agent、code-agent、debug-agent、data-analysis-agent、writing-agent,基于 LangGraph 共享状态机协同
- Evolution Manager Agent (EMA):从历史交互中提炼可复用知识,驱动研究策略持续优化
- 论文(arXiv:2603.08127)描述三智能体架构(RA/EA/EMA),代码已扩展为 6 子智能体,具体映射关系待确认
持久化记忆系统#
- Ideation Memory:总结可行研究方向,记录失败方向以避免重复探索
- Experimentation Memory:捕获有效的数据处理和模型训练策略
- 上下文、偏好和实验发现在会话间保留(SQLite 会话数据库)
科学工作流引擎#
- 6 阶段流水线采用 baseline-first + 单变量迭代设计确保科学严谨性
- 沙盒化代码执行:300s 超时、输出限制、自动恢复,支持 "More Effort" 迭代精炼模式
- 深度文献研究:网络搜索 + 7 维结构化反思,强制引用规范
多提供商与多渠道#
- 覆盖 9 个 LLM 提供商:Anthropic、OpenAI、Google、NVIDIA、SiliconFlow、OpenRouter、Volcengine、DashScope、Ollama/Custom
- CLI/TUI 为核心枢纽,支持 10 个消息平台:Telegram、Slack、Feishu、WeChat、DingTalk、iMessage、Discord、Email、QQ、Signal,所有渠道共享同一 agent 会话
自适应交互#
- 基于对话状态动态重写系统提示词
- 每轮仅显示相关工具,减少噪音
插件与扩展#
- MCP 协议:可通过
EvoSci mcp add命令动态添加 MCP server - EvoSkills:10 个预置研究全生命周期技能(research-ideation、idea-tournament、experiment-pipeline、experiment-craft、paper-planning、paper-writing、paper-review、paper-rebuttal、academic-slides、evo-memory),兼容 Claude Code、Cursor 等第三方 AI 编码 agent
框架依赖#
- LangChain — agent 框架基础
- DeepAgents — batteries-included agent harness
- LangGraph — 状态机编排与多智能体协调
- MCP (Model Context Protocol) — 外部工具集成协议
- 运行环境:Python 3.11+(< 3.14),Docker 镜像内含 Python 3.11、Node.js 24 LTS + npx
安装部署#
# 推荐:uv 工具安装
uv tool install EvoScientist
EvoSci onboard
# pip 安装
uv pip install EvoScientist
# Docker
docker run -it --rm --env-file .env -v "$(pwd)/workspace:/workspace" -v evosci-data:/home/evosci/.evoscientist ghcr.io/evoscientist/evoscientist:latest
基准表现与学术认可#
- 🏆 ICAIS 2025 AI Scientist Track:6/6 论文被接收,获 Best Paper 及 AI Reviewer's Appraisal Award
- 🥇 DeepResearch Bench II 排名 #1
- 🥇 DeepResearch Bench 排名 #1
- 🥇 AstaBench Code & Execution 排名 #1
- 🥇 AstaBench Data Analysis 排名 #1
注:具体基准数值分数未公开,仅说明提交时排名 #1。
待确认信息#
- EvoSkills 的具体安装命令未在文档中明确展示
- 论文中三智能体与代码中六智能体的映射关系未详述
- 记忆模块的存储格式与容量限制未公开
- Web 界面当前未公开,Roadmap 中列为即将推出功能