Apple Silicon 本地 AI 推理引擎,提供 OpenAI 兼容 API,支持多模态、Tool Calling 和智能云端路由。
Rapid-MLX 是专为 Apple Silicon(M1/M2/M3/M4)设计的本地 AI 推理引擎,基于 Apple MLX 框架,利用统一内存与原生 Metal 计算内核实现高性能推理。项目提供完整的 OpenAI 兼容 API(/v1/chat/completions、/v1/completions、/v1/messages、/v1/embeddings、音频端点等),可作为 Drop-in 替代方案直接对接 Cursor、Claude Code、Aider、PydanticAI、LangChain、smolagents 等主流工具与框架。
核心特性包括:支持 17 种 parser 格式并具备量化模型 tool 输出自动恢复机制的 Tool Calling 能力;将 Qwen3、DeepSeek-R1 等 CoT 输出分离至 reasoning_content 字段的推理分离机制;跨请求持久缓存、TTFT 提升 2-5x 的 Prompt Cache(对 RNN 混合模型使用状态快照恢复);基于新增 token 阈值自动将大上下文请求路由至云端 LLM 的智能云端路由;以及覆盖视觉、音频、视频理解和文本嵌入的多模态支持。此外提供 KV cache 量化、continuous batching、logprobs、结构化 JSON 输出等能力。
项目当前版本 0.6.9,处于 Beta 阶段,采用 Apache-2.0 许可证,要求 Python >= 3.10。提供 Homebrew、pip、一键脚本三种安装方式,内置 rapid-mlx doctor 自诊断和 rapid-mlx agents --test 兼容性测试,拥有 2100+ 单元测试覆盖。
安装方式:
brew install raullenchai/rapid-mlx/rapid-mlx
pip install rapid-mlx
curl -fsSL https://raullenchai.github.io/Rapid-MLX/install.sh | bash
快速启动:
rapid-mlx serve gemma-4-26b
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"default","messages":[{"role":"user","content":"Say hello"}]}'
Python SDK(直接使用 OpenAI SDK):
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")
response = client.chat.completions.create(
model="default",
messages=[{"role": "user", "content": "Say hello"}],
)
print(response.choices[0].message.content)
待确认信息:性能基准测试(如 "4.2x faster than Ollama")为项目方自测结果,未发现独立第三方验证;Day-0 前沿模型支持的长期维护承诺不明确;云端路由需用户自行配置 API Key,具体支持的云端模型列表未详述。