Rapid-MLX

Apple Silicon 本地 AI 推理引擎，提供 OpenAI 兼容 API，支持多模态、Tool Calling 和智能云端路由。

Rapid-MLX 是专为 Apple Silicon（M1/M2/M3/M4）设计的本地 AI 推理引擎，基于 Apple MLX 框架，利用统一内存与原生 Metal 计算内核实现高性能推理。项目提供完整的 OpenAI 兼容 API（/v1/chat/completions、/v1/completions、/v1/messages、/v1/embeddings、音频端点等），可作为 Drop-in 替代方案直接对接 Cursor、Claude Code、Aider、PydanticAI、LangChain、smolagents 等主流工具与框架。

核心特性包括：支持 17 种 parser 格式并具备量化模型 tool 输出自动恢复机制的 Tool Calling 能力；将 Qwen3、DeepSeek-R1 等 CoT 输出分离至 reasoning_content 字段的推理分离机制；跨请求持久缓存、TTFT 提升 2-5x 的 Prompt Cache（对 RNN 混合模型使用状态快照恢复）；基于新增 token 阈值自动将大上下文请求路由至云端 LLM 的智能云端路由；以及覆盖视觉、音频、视频理解和文本嵌入的多模态支持。此外提供 KV cache 量化、continuous batching、logprobs、结构化 JSON 输出等能力。

项目当前版本 0.6.9，处于 Beta 阶段，采用 Apache-2.0 许可证，要求 Python >= 3.10。提供 Homebrew、pip、一键脚本三种安装方式，内置 rapid-mlx doctor 自诊断和 rapid-mlx agents --test 兼容性测试，拥有 2100+ 单元测试覆盖。

安装方式：

brew install raullenchai/rapid-mlx/rapid-mlx
pip install rapid-mlx
curl -fsSL https://raullenchai.github.io/Rapid-MLX/install.sh | bash

快速启动：

rapid-mlx serve gemma-4-26b
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","messages":[{"role":"user","content":"Say hello"}]}'

Python SDK（直接使用 OpenAI SDK）：

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")
response = client.chat.completions.create(
    model="default",
    messages=[{"role": "user", "content": "Say hello"}],
)
print(response.choices[0].message.content)

待确认信息：性能基准测试（如 "4.2x faster than Ollama"）为项目方自测结果，未发现独立第三方验证；Day-0 前沿模型支持的长期维护承诺不明确；云端路由需用户自行配置 API Key，具体支持的云端模型列表未详述。

相关项目

Genkit

Gobii Platform

Semble

保持更新