面向 Apple Silicon 的 vLLM 风格推理服务器,基于原生 MLX 后端,单进程同时暴露 OpenAI 与 Anthropic 兼容 API,支持多模态统一服务、Continuous Batching、Paged KV Cache、SSD 分级缓存等生产级特性。
核心定位#
vllm-mlx 是一个专为 Apple Silicon(M1/M2/M3/M4)+ Metal GPU + macOS 环境设计的 LLM 推理服务框架,灵感来源于 vLLM,但完全基于 Apple MLX 框架重新实现。它解决了 Apple 生态中缺乏高吞吐、生产级 LLM 推理服务框架的问题。
API 兼容性#
- OpenAI 兼容端点:
/v1/chat/completions、/v1/completions、/v1/embeddings、/v1/rerank、/v1/responses - Anthropic 兼容端点:
/v1/messages(完整支持 streaming、tool use、system prompts) - MCP Tool Calling:内置 12 种工具解析器,覆盖 OpenAI、Anthropic、Gemini、Qwen、DeepSeek、Gemma 等
- 结构化输出:通过
response_format支持 JSON Schema(基于 lm-format-enforcer)
吞吐与内存优化#
- Continuous Batching:高并发请求吞吐
- Paged KV Cache:基于前缀共享的内存高效 KV 缓存
- SSD-tiered KV Cache:前缀缓存可溢出到磁盘(
--ssd-cache-dir),支持长上下文 Agent - Warm Prompts:启动时预加载热门前缀(
--warm-prompts),TTFT 提升 1.3–2.25x - Prefix Cache:基于 trie 结构,跨请求前缀共享
多模态处理#
- 统一服务文本 + 图像 + 视频 + 音频
- 视觉模型支持:Gemma 3/4、Qwen3-VL、Pixtral、Llama vision
- 音频输入:支持
audio_urlcontent blocks - 原生 TTS:11 种语音、15+ 语言(Kokoro、Chatterbox、VibeVoice、VoxCPM)
- 原生 STT:Whisper 系列,RTF 最高 197x(M4 Max)
高级推理与加速#
- Reasoning Extraction:Qwen3、DeepSeek-R1(
--reasoning-parser) - MoE Expert Reduction:
--moe-top-k,Qwen3-30B-A3B 提速 7–16% - Speculative Decoding:
--mtp(如 Qwen3-Next) - Sparse Prefill:
--spec-prefill,降低 TTFT
可观测性#
- Prometheus metrics:
/metrics端点(--metrics) - 内置基准测试:
vllm-mlx bench-serve,支持 CSV/JSON/SQLite 输出
典型应用场景#
- Claude Code / OpenCode 本地替代后端
- 本地 LLM 高并发服务
- 多模态 Agent 统一入口
- 超长上下文对话(借助磁盘溢出缓存)
- 本地化 TTS/STT 处理
- 文本嵌入与重排服务
安装与快速开始#
uv tool install vllm-mlx
vllm-mlx serve mlx-community/Llama-3.2-3B-Instruct-4bit --port 8000 --continuous-batching
架构概述#
API 路由层(OpenAI/Anthropic/rerank/metrics)→ 调度层(Continuous batching、Paged KV cache、Prefix cache、SSD tiering)→ 模型执行层(mlx-lm、mlx-vlm、mlx-audio、mlx-embeddings)→ 底层(MLX、Metal kernels、Unified memory)。
限制#
- 仅支持 Apple Silicon + macOS,不支持 Windows/Linux
- 无独立文档站,文档位于 GitHub
docs/目录 - 无关联学术论文
- 未发现公开的生产环境部署案例