Skyvern
✨基于视觉 LLM 驱动浏览器自动化的 AI Agent 平台,通过 Playwright 扩展实现自然语言操控网页,支持工作流编排与结构化数据提取。
模型与推理框架多模态AI代理
基于视觉 LLM 驱动浏览器自动化的 AI Agent 平台,通过 Playwright 扩展实现自然语言操控网页,支持工作流编排与结构化数据提取。
本地优先的 AI 个人代理操作系统,基于文件智能、事件驱动工作流与 LLM 实现跨模态任务执行与多平台交互。
基于 AI 视觉理解的 macOS GUI 自动化工具,通过屏幕截图与多供应商大模型实现元素检测、语义理解与自然语言驱动的界面操作
面向实时语音与多模态对话 AI Agent 的开源 Python 框架,通过可组合 Pipeline 架构实现端到端语音流式交互。
首个开源 Agent-first 视频制作系统,提供 12 条结构化管线与 52 个生产工具,在 AI 编程助手中以自然语言驱动端到端视频生产。
面向生产环境的结构化文档数据提取系统,支持多模态大模型与可插拔工作流编排,可处理发票、银行对账单、金融表格等多种业务文档。
节点式可视化 AI 工作流与 LLM Agent 构建平台,支持本地运行模型与多模态编排,提供桌面端、Web、CLI、移动端全矩阵交付形态。
基于 VLM 驱动的 Android 端侧 AI 智能助手,支持本地模型推理与屏幕级自动化操控。
全解耦多模态模型推理与服务框架,扩展 vLLM 支持任意到任意模态的统一推理与高性能部署。
面向 AI Agent 的 macOS 全桌面操控系统,通过 29 个 MCP 工具实现结构化感知、视觉定位、合成输入与自学习 Recipe 工作流。
第 1 / 4 页 · 共 34 条
获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。