verl
🧠面向大语言模型的灵活、高效、生产可用的强化学习后训练框架
面向大语言模型的灵活、高效、生产可用的强化学习后训练框架
面向具身智能与智能体 AI 后训练场景的灵活可扩展强化学习训练基础设施,通过 M2Flow 范式实现逻辑工作流构建与高效物理执行解耦。
面向 AI Agent 的开源编排与优化工具库,以框架无关方式统一连接、观测和调优多 Agent 协作系统,支持 MCP/A2A 协议、全链路 Profiling、离线评估与 RL 微调。
面向大语言模型的强化学习训练环境构建库,提供从开发、测试到规模化 Rollout 采集的完整基础设施,内置丰富的 RLVR 场景与工具调用支持。
一款开源的通用多智能体框架,支持通过自然语言构建、评估和训练自主智能体舰队。具备分布式强化学习训练管道,支持网页浏览、操作系统控制等复杂环境交互,在 GAIA、OSWorld、VisualWebArena 等权威基准测试中名列前茅。
受人类认知双过程理论启发的生成式智能体框架,结合快思考与慢思考机制,通过上下文强化学习高效解决复杂交互式推理任务。
清华大学 THUDM 推出的 LLM 强化学习后训练框架,深度融合 Megatron-LM 训练能力与 SGLang 推理引擎,支持大规模 RL Scaling,适用于 GLM、Qwen、DeepSeek、Llama 等大模型的分布式强化学习训练。
AI-Compass是为社区提供AI技术学习路径与实践指南的综合性开源项目,从基础理论到前沿应用,帮助初学者到专业开发者构建完整的AI知识体系。
一个每日更新的自主智能体(大语言模型)研究论文集合,为研究人员和开发者提供最新的AI领域研究成果。
Odyssey是一个基于大型语言模型的Minecraft智能代理框架,包含40种基础技能和183种组合技能,使AI能够在开放世界中自主探索、学习并执行多样化任务。
第 1 / 3 页 · 共 28 条
获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。