面向 Platform Engineering 团队的开源多智能体 AI 系统,通过 persona 驱动的专业化 Agent 协作实现事件管理、持续部署、工单管理等平台运维工作流的自动化编排。
CAIPE(发音 "cape")是 CNOE(Cloud Native Operational Excellence,CNCF 生态)社区推出的开源多智能体系统,专为 Platform Engineering、SRE 和 DevOps 团队设计。系统采用 Supervisor 编排架构,中央 Supervisor 调度 ArgoCD、PagerDuty、GitHub、Jira、Kubernetes、Slack 等专业化子 Agent,通过 A2A 协议或 MCP 协议实现跨系统自动化操作。
系统提供 Multi-Node(生产环境,A2A 远程通信)和 Single-Node(开发环境,MCP stdio 进程内通信)两种部署模式,并支持通过 DISTRIBUTED_AGENTS 变量灵活混合。Persona 驱动的设计提供"Platform Engineer"、"Incident Engineer"等预定义角色及配套 prompt 库,通过 YAML 声明式配置和 policy.lp 策略文件约束 Agent 行为。
知识库方面支持基础 RAG(Milvus + Redis)和 Graph RAG(Neo4j + 知识图谱)两种模式,可通过 API 自动摄取外部内容。安全层面具备 Agent 间安全通信、API RBAC、K8s Pod Security Standards 合规及 Vault 密钥管理。可观测性内置 Langfuse tracing 和 Prometheus metrics,LLM 状态持久化支持 Redis / Postgres / MongoDB。前端基于 Next.js 16 + React 19,同时支持 A2A 协议编程接口和 Backstage 门户集成。
后端以 Python 3.13 + FastAPI + LangGraph + LangChain 为核心,前端采用 Next.js 16 + React 19 + Zustand,基础设施支持 Docker Compose 和 Kubernetes Helm 部署,Python 包管理使用 uv。项目当前版本 0.4.8,已发布 62 个 release,主要语言构成约 Python 44.6%、TypeScript 41.6%、Go 10.0%。采用 Apache-2.0 许可证。
典型使用场景#
- 事件管理:确认 PagerDuty 事件、查询 on-call 排班
- 持续部署:同步 ArgoCD 应用至最新提交、查询应用状态
- 版本控制:创建 GitHub 仓库、合并 Pull Request
- 项目管理:创建 Jira 工单、分配任务
- 团队沟通:发送 Slack 消息、创建频道
快速开始#
git clone https://github.com/cnoe-io/ai-platform-engineering.git
cd ai-platform-engineering
cp .env.example .env
docker compose --profile caipe-ui up
启动后 Web UI 访问 http://localhost:3001,API 端口 8000。可选启用 tracing(--profile tracing)或 RAG 知识库(--profile rag)。