发现 AI 代理的未来

CyberVerse

收录于 2026年5月4日
智能体与应用工具
开源
PythonNode.js知识库多模态RAGAI代理Web应用智能体与应用工具文档教程与资源知识管理/检索/RAG计算机视觉/多模态

开源数字人智能体平台,通过单张照片创建可实时视频通话的 AI Agent,支持 RAG 知识导入、声音克隆与模块化插件架构。

CyberVerse 是一个开源数字人智能体平台,核心理念是让 AI 从文字/语音对话升级为面对面实时视频交流。项目仅需一张照片即可生成具备实时面部动画、自然唇形同步和微妙呼吸效果的数字人,并赋予其 Agent 能力——不仅能对话,还能执行实际任务。

实时视频通话基于 WebRTC 构建,支持 P2P 流传输与内嵌 TURN/NAT 穿透,首帧约 1.5 秒,可实现无限时长低延迟对话,非预录制也非回合制。系统支持同一会话中语音与文本混合输入、语音打断、会话暂停/恢复,以及用户端摄像头输入以理解动作和手势等视觉线索。

架构上采用 Python 推理服务 + Go API 服务器 + Vue/TypeScript 前端的三进程设计,通过 gRPC 跨语言通信。核心设计为模块化可插拔:大脑、面孔、声音、耳朵每个组件都是可替换插件,通过 YAML 配置文件混合搭配不同的 LLM、TTS、ASR 和头像后端。当前可用的头像模型包括 SoulX-FlashHead (1.3B,支持 pro/lite 两种模式) 和 SoulX-LiveAct (18B),音频特征提取使用 wav2vec2 系列,可选集成 SageAttention 和 FlashAttention 加速推理。

在智能体层面,CyberVerse 支持导入知识、文档和传记材料实现基于角色设定的 RAG 问答,每个角色的聊天历史持久化到磁盘并自动加载。还支持字节豆包声音克隆、直播推流输出等能力。

项目使用 Python (70.5%)、Go (17.1%)、Vue (6.5%)、TypeScript (3.8%) 构建,采用 GPL-3.0 许可证,由维护者 dsd2077 活跃开发中,目前处于 main 分支开发阶段(59 次提交,暂无正式 Release)。实时视频对话依赖 GPU 加速,最低已知可实时配置为 RTX 4090 + FlashHead Lite 模式,完整 Pro 体验需要双 RTX 5090。

待确认事项: 仓库暂无正式 Release,生产可用性未经验证;非豆包的 LLM/TTS/ASR 插件具体支持程度待确认;LiveKit SFU 模式、多 Agent 协作、嵌入式 SDK 均在 Roadmap 中尚未实现;更低端 GPU 的支持情况待确认;用户端视觉理解和直播推流的具体实现范围待确认。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。