RCLI

面向 macOS Apple Silicon 的全链路端侧语音 AI 助手，集成 STT、LLM、TTS、VLM、RAG 与系统操作控制，完全离线运行。

RCLI 是由 RunAnywhere, Inc.（Y Combinator 背书）开发的端侧语音 AI 助手，专为 macOS Apple Silicon 平台设计。项目将语音活动检测（Silero VAD）、流式与离线语音识别（Zipformer / Whisper / Parakeet）、大语言模型推理（Qwen3 / LFM2）、语音合成（Piper / Kokoro 等多引擎）、视觉语言模型（Qwen3 VL / SmolVLM）、本地 RAG 文档问答（向量 + BM25 混合检索，约 4ms 延迟）以及 macOS 系统操作控制（40 项预定义动作）串联为端到端延迟低于 200ms 的完整流水线。所有推理均在设备本地完成，无需云端服务或 API Key。

核心差异化在于自研的 MetalRT GPU 推理引擎——基于 Metal 3.1 手写 kernel（qmv.metal、attention_decode.metal、rope.metal、swiglu.metal、kv_cache.metal 等），针对 Apple Silicon 深度优化，LLM 解码速度达 550+ tok/s（官网称 M4 Max 上 668 tok/s），STT 推理号称 714 倍实时速度。MetalRT 需 M3 及以上芯片，M1/M2 设备自动回退至 llama.cpp。TTS 采用双缓冲句子级流水线，下一句在当前句播放期间预渲染，消除句间等待。

VLM 能力支持图片文件分析、摄像头实时分析、屏幕区域截图分析，已适配 Qwen3 VL 2B、Liquid LFM2 VL 1.6B、SmolVLM 500M，当前运行在 llama.cpp 引擎上，MetalRT VLM 尚未发布。macOS 操作控制通过 AppleScript / Shell 命令桥接，覆盖生产力、通讯、媒体、系统、Web 等类别。

项目本体以 C++（91.3%）编写，CMake 构建，所有依赖通过 vendor 或 FetchContent 内置获取。支持 Homebrew 一键安装或源码构建（CPU-only，无 MetalRT）。默认安装模型约 1GB（LFM2 1.2B、Whisper base.en、Piper Lessac/Amy、Silero、Snowflake），VLM 模型按需下载。项目本体 MIT 许可，MetalRT 引擎为专有许可。最新版本 v0.3.7。

相关项目

Genkit

Gobii Platform

Semble

保持更新