CyberVerse

开源数字人智能体平台，通过单张照片创建可实时视频通话的 AI Agent，支持 RAG 知识导入、声音克隆与模块化插件架构。

CyberVerse 是一个开源数字人智能体平台，核心理念是让 AI 从文字/语音对话升级为面对面实时视频交流。项目仅需一张照片即可生成具备实时面部动画、自然唇形同步和微妙呼吸效果的数字人，并赋予其 Agent 能力——不仅能对话，还能执行实际任务。

实时视频通话基于 WebRTC 构建，支持 P2P 流传输与内嵌 TURN/NAT 穿透，首帧约 1.5 秒，可实现无限时长低延迟对话，非预录制也非回合制。系统支持同一会话中语音与文本混合输入、语音打断、会话暂停/恢复，以及用户端摄像头输入以理解动作和手势等视觉线索。

架构上采用 Python 推理服务 + Go API 服务器 + Vue/TypeScript 前端的三进程设计，通过 gRPC 跨语言通信。核心设计为模块化可插拔：大脑、面孔、声音、耳朵每个组件都是可替换插件，通过 YAML 配置文件混合搭配不同的 LLM、TTS、ASR 和头像后端。当前可用的头像模型包括 SoulX-FlashHead (1.3B，支持 pro/lite 两种模式) 和 SoulX-LiveAct (18B)，音频特征提取使用 wav2vec2 系列，可选集成 SageAttention 和 FlashAttention 加速推理。

在智能体层面，CyberVerse 支持导入知识、文档和传记材料实现基于角色设定的 RAG 问答，每个角色的聊天历史持久化到磁盘并自动加载。还支持字节豆包声音克隆、直播推流输出等能力。

项目使用 Python (70.5%)、Go (17.1%)、Vue (6.5%)、TypeScript (3.8%) 构建，采用 GPL-3.0 许可证，由维护者 dsd2077 活跃开发中，目前处于 main 分支开发阶段（59 次提交，暂无正式 Release）。实时视频对话依赖 GPU 加速，最低已知可实时配置为 RTX 4090 + FlashHead Lite 模式，完整 Pro 体验需要双 RTX 5090。

待确认事项： 仓库暂无正式 Release，生产可用性未经验证；非豆包的 LLM/TTS/ASR 插件具体支持程度待确认；LiveKit SFU 模式、多 Agent 协作、嵌入式 SDK 均在 Roadmap 中尚未实现；更低端 GPU 的支持情况待确认；用户端视觉理解和直播推流的具体实现范围待确认。

相关项目

Genkit

Gobii Platform

Semble

保持更新