发现 AI 代理的未来

Rapid-MLX

收录于 2026年5月4日
模型与推理框架
开源
Python大语言模型MCP多模态AI代理智能体框架CLI模型与推理框架模型训练/推理协议/API/集成计算机视觉/多模态

Apple Silicon 本地 AI 推理引擎,提供 OpenAI 兼容 API,支持多模态、Tool Calling 和智能云端路由。

Rapid-MLX 是专为 Apple Silicon(M1/M2/M3/M4)设计的本地 AI 推理引擎,基于 Apple MLX 框架,利用统一内存与原生 Metal 计算内核实现高性能推理。项目提供完整的 OpenAI 兼容 API(/v1/chat/completions/v1/completions/v1/messages/v1/embeddings、音频端点等),可作为 Drop-in 替代方案直接对接 Cursor、Claude Code、Aider、PydanticAI、LangChain、smolagents 等主流工具与框架。

核心特性包括:支持 17 种 parser 格式并具备量化模型 tool 输出自动恢复机制的 Tool Calling 能力;将 Qwen3、DeepSeek-R1 等 CoT 输出分离至 reasoning_content 字段的推理分离机制;跨请求持久缓存、TTFT 提升 2-5x 的 Prompt Cache(对 RNN 混合模型使用状态快照恢复);基于新增 token 阈值自动将大上下文请求路由至云端 LLM 的智能云端路由;以及覆盖视觉、音频、视频理解和文本嵌入的多模态支持。此外提供 KV cache 量化、continuous batching、logprobs、结构化 JSON 输出等能力。

项目当前版本 0.6.9,处于 Beta 阶段,采用 Apache-2.0 许可证,要求 Python >= 3.10。提供 Homebrew、pip、一键脚本三种安装方式,内置 rapid-mlx doctor 自诊断和 rapid-mlx agents --test 兼容性测试,拥有 2100+ 单元测试覆盖。

安装方式

brew install raullenchai/rapid-mlx/rapid-mlx
pip install rapid-mlx
curl -fsSL https://raullenchai.github.io/Rapid-MLX/install.sh | bash

快速启动

rapid-mlx serve gemma-4-26b
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","messages":[{"role":"user","content":"Say hello"}]}'

Python SDK(直接使用 OpenAI SDK):

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="not-needed")
response = client.chat.completions.create(
    model="default",
    messages=[{"role": "user", "content": "Say hello"}],
)
print(response.choices[0].message.content)

待确认信息:性能基准测试(如 "4.2x faster than Ollama")为项目方自测结果,未发现独立第三方验证;Day-0 前沿模型支持的长期维护承诺不明确;云端路由需用户自行配置 API Key,具体支持的云端模型列表未详述。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。