vllm-mlx
🧠面向 Apple Silicon 的 vLLM 风格推理服务器,基于原生 MLX 后端,单进程同时暴露 OpenAI 与 Anthropic 兼容 API,支持多模态统一服务、Continuous Batching、Paged KV Cache、SSD 分级缓存等生产级特性。
面向 Apple Silicon 的 vLLM 风格推理服务器,基于原生 MLX 后端,单进程同时暴露 OpenAI 与 Anthropic 兼容 API,支持多模态统一服务、Continuous Batching、Paged KV Cache、SSD 分级缓存等生产级特性。
自动为每个 LLM 请求路由到最便宜但仍能胜任的模型的本地代理服务
首个实验性全节点对等(P2P)分布式 AGI 系统,通过自主 Agent 网络实现持续复合的智能进化,支持跨异构设备的去中心化分布式训练、P2P 推理路由及内置区块链微支付经济体系。
Apple Silicon 本地 AI 推理引擎,提供 OpenAI 兼容 API,支持多模态、Tool Calling 和智能云端路由。
斯坦福出品的本地优先个人 AI 代理框架,通过五大可组合原语实现离线智能体编排、技能导入与 trace 驱动持续学习,支持 10+ 推理后端与四种交互方式。
全解耦多模态模型推理与服务框架,扩展 vLLM 支持任意到任意模态的统一推理与高性能部署。
基于 Docker Compose 的本地 LLM 全栈编排 CLI 工具,一条命令启动预互联的推理后端、前端 UI、RAG、语音、图像生成等服务
面向大语言模型服务的 KVCache 中心化解耦架构平台,提供分布式 KVCache 池化存储、拓扑感知高速传输引擎与中心化调度器,支持 Prefill-Decode 分离部署与 MoE 弹性推理。
纯 C/C++ 实现的跨平台大语言模型推理框架,通过自研 GGUF 格式与多硬件后端支持,实现从边缘设备到云端的极简部署与高性能量化推理。
面向 Apple Silicon 的本地 OpenAI 兼容多模态 API 服务器,支持文本、视觉、音频转录与图像生成/编辑模型的统一部署。
第 1 / 3 页 · 共 27 条
获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。