Agent Park - Agent 项目导航

发现 AI 代理的未来

中文 / EN 提交项目

全部项目

12 个项目

verl

🧠

面向大语言模型的灵活、高效、生产可用的强化学习后训练框架

其他深度学习多模态

查看详情 →

vLLM-Omni

🧠

全解耦多模态模型推理与服务框架，扩展 vLLM 支持任意到任意模态的统一推理与高性能部署。

深度学习多模态FastAPI

查看详情 →

mlx-openai-server

✨

面向 Apple Silicon 的本地 OpenAI 兼容多模态 API 服务器，支持文本、视觉、音频转录与图像生成/编辑模型的统一部署。

深度学习大语言模型多模态

查看详情 →

trackers

✨

即插即用的多目标跟踪（MOT）Python库，提供SORT和ByteTrack等经典算法的模块化实现。采用检测器无关设计，可配合任意目标检测模型（YOLO、DETR等）使用，支持视频文件、摄像头、RTSP流等多种输入源。提供统一CLI工具与Python API，内置CLEAR、HOTA、Identity等标准MOT评估指标计算功能。

多模态深度学习SDK

查看详情 →

WiFi DensePose

✨

基于InvisPose研究的生产级WiFi穿墙人体姿态估计系统，利用商用Mesh路由器的CSI信号实现无需摄像头的实时全身追踪，支持多人追踪、跌倒检测等高级分析功能。

多模态深度学习Docker

查看详情 →

VibeVoice 语音AI开源框架

✨

微软开源的前沿语音AI模型家族，包含文本转语音(TTS)和自动语音识别(ASR)模型，支持长时音频处理和多语言功能。

模型与推理框架PyTorchPython

查看详情 →

Speech-AI-Forge 语音AI工厂

✨

一个围绕TTS生成模型开发的项目，提供API服务器和基于Gradio的WebUI，支持多种语音合成、语音克隆和音频增强功能。

模型与推理框架PythonGradio

查看详情 →

具身智能论文列表

✨

中山大学人类通信与感知实验室维护的具身智能领域论文列表，为研究人员提供最新的研究成果汇总。

文档教程与资源Python多模态

查看详情 →

DeepVideoDiscovery

✨

微软开发的视频内容发现工具，利用深度学习技术从视频中自动识别和提取关键内容，帮助用户高效浏览和理解视频信息。

智能体与应用工具PythonPyTorch

查看详情 →

LLaVA-Plus：大型语言与视觉助手

✨

LLaVA-Plus是一个能够学习和使用工具的多模态助手系统，通过将大型语言模型与视觉技术结合，使AI代理能够执行通用视觉任务。

模型与推理框架PythonPyTorch

查看详情 →

每页

第 1 / 2 页 · 共 12 条

保持更新

获取最新的 AI 工具和趋势，直接发送到您的收件箱。没有垃圾邮件，只有智能。