发现 AI 代理的未来

vllm-mlx

收录于 2026年5月8日
模型与推理框架
开源
Python大语言模型多模态vLLMCLI模型与推理框架模型训练/推理协议/API/集成计算机视觉/多模态

面向 Apple Silicon 的 vLLM 风格推理服务器,基于原生 MLX 后端,单进程同时暴露 OpenAI 与 Anthropic 兼容 API,支持多模态统一服务、Continuous Batching、Paged KV Cache、SSD 分级缓存等生产级特性。

核心定位#

vllm-mlx 是一个专为 Apple Silicon(M1/M2/M3/M4)+ Metal GPU + macOS 环境设计的 LLM 推理服务框架,灵感来源于 vLLM,但完全基于 Apple MLX 框架重新实现。它解决了 Apple 生态中缺乏高吞吐、生产级 LLM 推理服务框架的问题。

API 兼容性#

  • OpenAI 兼容端点/v1/chat/completions/v1/completions/v1/embeddings/v1/rerank/v1/responses
  • Anthropic 兼容端点/v1/messages(完整支持 streaming、tool use、system prompts)
  • MCP Tool Calling:内置 12 种工具解析器,覆盖 OpenAI、Anthropic、Gemini、Qwen、DeepSeek、Gemma 等
  • 结构化输出:通过 response_format 支持 JSON Schema(基于 lm-format-enforcer)

吞吐与内存优化#

  • Continuous Batching:高并发请求吞吐
  • Paged KV Cache:基于前缀共享的内存高效 KV 缓存
  • SSD-tiered KV Cache:前缀缓存可溢出到磁盘(--ssd-cache-dir),支持长上下文 Agent
  • Warm Prompts:启动时预加载热门前缀(--warm-prompts),TTFT 提升 1.3–2.25x
  • Prefix Cache:基于 trie 结构,跨请求前缀共享

多模态处理#

  • 统一服务文本 + 图像 + 视频 + 音频
  • 视觉模型支持:Gemma 3/4、Qwen3-VL、Pixtral、Llama vision
  • 音频输入:支持 audio_url content blocks
  • 原生 TTS:11 种语音、15+ 语言(Kokoro、Chatterbox、VibeVoice、VoxCPM)
  • 原生 STT:Whisper 系列,RTF 最高 197x(M4 Max)

高级推理与加速#

  • Reasoning Extraction:Qwen3、DeepSeek-R1(--reasoning-parser
  • MoE Expert Reduction--moe-top-k,Qwen3-30B-A3B 提速 7–16%
  • Speculative Decoding--mtp(如 Qwen3-Next)
  • Sparse Prefill--spec-prefill,降低 TTFT

可观测性#

  • Prometheus metrics:/metrics 端点(--metrics
  • 内置基准测试:vllm-mlx bench-serve,支持 CSV/JSON/SQLite 输出

典型应用场景#

  • Claude Code / OpenCode 本地替代后端
  • 本地 LLM 高并发服务
  • 多模态 Agent 统一入口
  • 超长上下文对话(借助磁盘溢出缓存)
  • 本地化 TTS/STT 处理
  • 文本嵌入与重排服务

安装与快速开始#

uv tool install vllm-mlx
vllm-mlx serve mlx-community/Llama-3.2-3B-Instruct-4bit --port 8000 --continuous-batching

架构概述#

API 路由层(OpenAI/Anthropic/rerank/metrics)→ 调度层(Continuous batching、Paged KV cache、Prefix cache、SSD tiering)→ 模型执行层(mlx-lm、mlx-vlm、mlx-audio、mlx-embeddings)→ 底层(MLX、Metal kernels、Unified memory)。

限制#

  • 仅支持 Apple Silicon + macOS,不支持 Windows/Linux
  • 无独立文档站,文档位于 GitHub docs/ 目录
  • 无关联学术论文
  • 未发现公开的生产环境部署案例

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。