发现 AI 代理的未来

Skyvern

收录于 2026年5月8日
智能体与应用工具
开源
Python工作流自动化多模态PlaywrightAI代理浏览器自动化智能体与应用工具模型与推理框架自动化/工作流/RPA计算机视觉/多模态

基于视觉 LLM 驱动浏览器自动化的 AI Agent 平台,通过 Playwright 扩展实现自然语言操控网页,支持工作流编排与结构化数据提取。

Skyvern 是一个使用视觉大语言模型和计算机视觉技术来自动化浏览器工作流的 AI Agent 平台。其核心创新在于摒弃了传统的 XPath/CSS 选择器依赖,转而通过 Vision LLM 理解页面视觉元素并规划操作,从而天然抗网页布局变更。

作为 Playwright 的 AI 扩展,Skyvern 提供了 page.act()page.extract()page.validate()page.prompt() 等自然语言 API,同时所有标准 Playwright 操作均支持可选的 prompt 参数实现 AI 辅助元素定位,兼容"传统选择器 → AI 回退"双模式。

在编排层面,Task 作为基本执行单元(URL + prompt + 可选 schema),可通过 Workflow 串联多个 Task 和 Block(For 循环、文件解析、邮件发送、HTTP 请求、自定义代码等)形成完整自动化流程。page.agent 进一步封装了登录、文件下载等高级能力,并集成 Bitwarden 与 1Password 凭据管理。

Skyvern 支持本地部署(pip / Docker Compose / Kubernetes)和 Skyvern Cloud 托管两种模式。Cloud 版本内置反 bot 检测、代理网络和 CAPTCHA 求解器,支持并行多实例。本地版自 v1.0.31 起默认使用 SQLite,零配置即可启动。后端基于 Python(支持多种 LLM 提供商及 LiteLLM/Ollama 本地模型),前端为 React 应用,同时提供 TypeScript SDK(@skyvern/client)和 Python SDK。

典型应用场景包括:批量发票下载、表单自动填写(政府/保险/求职)、无 API 网站的结构化数据提取、电商采购自动化,以及替代脆弱的传统 RPA 方案。项目在 WebBench 基准测试中报告达到 64.4% 准确率。还支持 MCP 协议集成,以及与 Zapier、Make、n8n、Workato 等自动化平台的连接。

采用 Agent Swarm 多 Agent 架构(Planner-Agent-Validator),设计源自 BabyAGI / AutoGPT 的 Task-Driven 自主 Agent 范式,在其基础上增加了浏览器交互能力。项目以 AGPL-3.0 发布,由 Skyvern-AI 组织维护。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。