verl
🧠面向大语言模型的灵活、高效、生产可用的强化学习后训练框架
面向大语言模型的灵活、高效、生产可用的强化学习后训练框架
NVIDIA 出品的 LLM 全流程开发管线工具集,覆盖合成数据生成、多后端推理、模型训练与 11 大类 benchmark 评测,支持从单 GPU 到万卡 Slurm 集群的弹性扩展。
面向 Apple Silicon 的本地 OpenAI 兼容多模态 API 服务器,支持文本、视觉、音频转录与图像生成/编辑模型的统一部署。
在本地设备集群上运行前沿大模型的分布式推理框架,基于 Apple MLX 与 libp2p,支持自动设备发现、拓扑感知并行与多 API 兼容。
面向大语言模型的强化学习训练环境构建库,提供从开发、测试到规模化 Rollout 采集的完整基础设施,内置丰富的 RLVR 场景与工具调用支持。
清华大学 THUDM 推出的 LLM 强化学习后训练框架,深度融合 Megatron-LM 训练能力与 SGLang 推理引擎,支持大规模 RL Scaling,适用于 GLM、Qwen、DeepSeek、Llama 等大模型的分布式强化学习训练。
微软官方推出的 1-bit 大语言模型推理框架。通过高度优化的内核,实现 CPU 和 GPU 上的无损、高速推理,大幅降低能耗并允许在普通设备上运行千亿参数级模型。
AirLLM优化推理内存使用,允许70B大语言模型在单张4GB GPU卡上运行推理,无需量化、蒸馏和剪枝。现在还能在8GB显存上运行405B Llama3.1模型。
开源的314B参数大语言模型,采用专家混合(MoE)架构,为研究者和开发者提供可访问的超大规模AI模型实现。
一个包含100个博士级研究任务的基准测试平台,涵盖22个不同领域,用于系统性评估深度研究代理(DRA)的报告生成质量和信息检索能力。
第 1 / 2 页 · 共 17 条
获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。