vllm-mlx

面向 Apple Silicon 的 vLLM 风格推理服务器，基于原生 MLX 后端，单进程同时暴露 OpenAI 与 Anthropic 兼容 API，支持多模态统一服务、Continuous Batching、Paged KV Cache、SSD 分级缓存等生产级特性。

核心定位#

vllm-mlx 是一个专为 Apple Silicon（M1/M2/M3/M4）+ Metal GPU + macOS 环境设计的 LLM 推理服务框架，灵感来源于 vLLM，但完全基于 Apple MLX 框架重新实现。它解决了 Apple 生态中缺乏高吞吐、生产级 LLM 推理服务框架的问题。

API 兼容性#

OpenAI 兼容端点：/v1/chat/completions、/v1/completions、/v1/embeddings、/v1/rerank、/v1/responses
Anthropic 兼容端点：/v1/messages（完整支持 streaming、tool use、system prompts）
MCP Tool Calling：内置 12 种工具解析器，覆盖 OpenAI、Anthropic、Gemini、Qwen、DeepSeek、Gemma 等
结构化输出：通过 response_format 支持 JSON Schema（基于 lm-format-enforcer）

吞吐与内存优化#

Continuous Batching：高并发请求吞吐
Paged KV Cache：基于前缀共享的内存高效 KV 缓存
SSD-tiered KV Cache：前缀缓存可溢出到磁盘（--ssd-cache-dir），支持长上下文 Agent
Warm Prompts：启动时预加载热门前缀（--warm-prompts），TTFT 提升 1.3–2.25x
Prefix Cache：基于 trie 结构，跨请求前缀共享

多模态处理#

统一服务文本 + 图像 + 视频 + 音频
视觉模型支持：Gemma 3/4、Qwen3-VL、Pixtral、Llama vision
音频输入：支持 audio_url content blocks
原生 TTS：11 种语音、15+ 语言（Kokoro、Chatterbox、VibeVoice、VoxCPM）
原生 STT：Whisper 系列，RTF 最高 197x（M4 Max）

高级推理与加速#

Reasoning Extraction：Qwen3、DeepSeek-R1（--reasoning-parser）
MoE Expert Reduction：--moe-top-k，Qwen3-30B-A3B 提速 7–16%
Speculative Decoding：--mtp（如 Qwen3-Next）
Sparse Prefill：--spec-prefill，降低 TTFT

可观测性#

Prometheus metrics：/metrics 端点（--metrics）
内置基准测试：vllm-mlx bench-serve，支持 CSV/JSON/SQLite 输出

典型应用场景#

Claude Code / OpenCode 本地替代后端
本地 LLM 高并发服务
多模态 Agent 统一入口
超长上下文对话（借助磁盘溢出缓存）
本地化 TTS/STT 处理
文本嵌入与重排服务

安装与快速开始#

uv tool install vllm-mlx
vllm-mlx serve mlx-community/Llama-3.2-3B-Instruct-4bit --port 8000 --continuous-batching

架构概述#

API 路由层（OpenAI/Anthropic/rerank/metrics）→ 调度层（Continuous batching、Paged KV cache、Prefix cache、SSD tiering）→ 模型执行层（mlx-lm、mlx-vlm、mlx-audio、mlx-embeddings）→ 底层（MLX、Metal kernels、Unified memory）。

限制#

仅支持 Apple Silicon + macOS，不支持 Windows/Linux
无独立文档站，文档位于 GitHub docs/ 目录
无关联学术论文
未发现公开的生产环境部署案例

核心定位#

API 兼容性#

吞吐与内存优化#

多模态处理#

高级推理与加速#

可观测性#

典型应用场景#

安装与快速开始#

架构概述#

限制#

相关项目

Genkit

Gobii Platform

Semble

保持更新