将电脑变为个人 AI,持续记录屏幕与音频,构建可搜索的本地 AI 记忆系统。
核心定位#
screenpipe 是一款开源的本地优先桌面应用,旨在将个人电脑转化为具备长期记忆的 AI 助手。核心基于事件驱动机制,通过监听操作系统事件(应用切换、点击、输入暂停、滚动、剪贴板)智能捕获屏幕截图与无障碍树,在无障碍 API 不可用时自动降级为 OCR,将存储消耗控制在约 300 MB/8hr。音频方面同步捕获系统音与麦克风输入,通过本地 Whisper 模型或可选 Deepgram 云端服务进行实时转录与说话人分离。
检索与交互#
- AI 驱动搜索:自然语言搜索全部 OCR 文本与音频转录,支持按应用名、窗口标题、浏览器 URL、日期范围过滤及基于嵌入的语义搜索,直接返回关联截图与音频片段。
- 时间线视图:类似 DVR 的全天屏幕历史可视化界面,点击任意时刻查看完整截图与提取文本。
扩展能力#
- MCP Server:作为标准 MCP Server 运行,零配置接入 Claude Desktop、Cursor、VS Code(Cline, Continue)等主流 AI 客户端,为编程或对话助手提供实时屏幕上下文。
- Pipes 插件系统:以 Markdown 文件定义的定时 AI Agent,通过 YAML frontmatter 实现确定性数据权限控制(应用过滤、内容类型、时间范围、端点访问),具备三层安全强制执行(技能门控、Agent 拦截、服务器中间件 per-pipe 加密令牌)。
- Apple Intelligence 集成:在支持的 Mac 上调用 Apple Intelligence 进行本地 AI 处理。
隐私与安全#
- 默认 100% 本地存储(SQLite),无需注册账号
- 支持完全本地 AI 推理(Ollama 或任何 OpenAI 兼容模型服务器)
- 可选静态加密与端到端加密设备间同步
- 敏感内容过滤(窗口、应用、Chrome 扩展、密码、PII)
- 核心代码 MIT 开源,完全可审计
架构要点#
- 捕获层:事件驱动,OS 事件 → 截图 + 无障碍树(同时间戳)→ 无障碍失效时降级 OCR
- 音频处理层:Whisper(本地)或 Deepgram(云端)→ 文本 + 说话人标签
- 存储层:本地 SQLite + FTS5 全文搜索,截图存为 JPEG
- API 层:REST API on localhost:3030,提供搜索、帧、音频、元素、健康检查、Pipe 管理等端点
- UI 层:Tauri 框架(Rust 后端 + TypeScript 前端)
- 代码结构:
crates/(Rust 核心)、apps/screenpipe-app-tauri/(桌面应用)、packages/(JS 包)、ee/(企业版)
适用场景#
- 知识工作者/研究人员:跨应用、跨时间检索曾经浏览或听过的信息
- 开发者:为 AI 编程助手提供实时与历史屏幕上下文
- ADHD 用户/远程工作者:自动追踪标签页/文档轨迹,会议自动转录与笔记
- 团队/企业:跨组织部署具有确定性数据权限隔离的 AI Agent
安装与上手#
系统要求:最低 8 GB RAM,约 5–10 GB 磁盘空间/月,CPU 占用 5–10%
桌面应用:从官网下载 macOS .dmg / Windows .exe 原生安装包
CLI 方式:
npx screenpipe@latest record
claude mcp add screenpipe -- npx -y screenpipe-mcp
SDK 调用示例:
import { pipe } from "@screenpipe/js";
const results = await pipe.queryScreenpipe({
q: "project deadline",
contentType: "all",
limit: 20,
startTime: new Date(Date.now() - 24 * 60 * 60 * 1000).toISOString(),
});
平台支持#
- macOS(Apple Silicon & Intel)、Windows 10/11(原生安装包)
- Linux(暂无原生安装包,仅支持源码编译)
待确认信息#
- 企业版(
ee/目录)具体许可条款 - Linux 原生安装包发布计划
- SOC 2 / HIPAA 合规认证状态
- 具体版本发布周期与更新策略
竞品参考#
Rewind.ai(现 Limitless)、Microsoft Recall、Granola、Otter.ai