开源数字人智能体平台,通过单张照片创建可实时视频通话的 AI Agent,支持 RAG 知识导入、声音克隆与模块化插件架构。
CyberVerse 是一个开源数字人智能体平台,核心理念是让 AI 从文字/语音对话升级为面对面实时视频交流。项目仅需一张照片即可生成具备实时面部动画、自然唇形同步和微妙呼吸效果的数字人,并赋予其 Agent 能力——不仅能对话,还能执行实际任务。
实时视频通话基于 WebRTC 构建,支持 P2P 流传输与内嵌 TURN/NAT 穿透,首帧约 1.5 秒,可实现无限时长低延迟对话,非预录制也非回合制。系统支持同一会话中语音与文本混合输入、语音打断、会话暂停/恢复,以及用户端摄像头输入以理解动作和手势等视觉线索。
架构上采用 Python 推理服务 + Go API 服务器 + Vue/TypeScript 前端的三进程设计,通过 gRPC 跨语言通信。核心设计为模块化可插拔:大脑、面孔、声音、耳朵每个组件都是可替换插件,通过 YAML 配置文件混合搭配不同的 LLM、TTS、ASR 和头像后端。当前可用的头像模型包括 SoulX-FlashHead (1.3B,支持 pro/lite 两种模式) 和 SoulX-LiveAct (18B),音频特征提取使用 wav2vec2 系列,可选集成 SageAttention 和 FlashAttention 加速推理。
在智能体层面,CyberVerse 支持导入知识、文档和传记材料实现基于角色设定的 RAG 问答,每个角色的聊天历史持久化到磁盘并自动加载。还支持字节豆包声音克隆、直播推流输出等能力。
项目使用 Python (70.5%)、Go (17.1%)、Vue (6.5%)、TypeScript (3.8%) 构建,采用 GPL-3.0 许可证,由维护者 dsd2077 活跃开发中,目前处于 main 分支开发阶段(59 次提交,暂无正式 Release)。实时视频对话依赖 GPU 加速,最低已知可实时配置为 RTX 4090 + FlashHead Lite 模式,完整 Pro 体验需要双 RTX 5090。
待确认事项: 仓库暂无正式 Release,生产可用性未经验证;非豆包的 LLM/TTS/ASR 插件具体支持程度待确认;LiveKit SFU 模式、多 Agent 协作、嵌入式 SDK 均在 Roadmap 中尚未实现;更低端 GPU 的支持情况待确认;用户端视觉理解和直播推流的具体实现范围待确认。