Pipecat

面向实时语音与多模态对话 AI Agent 的开源 Python 框架，通过可组合 Pipeline 架构实现端到端语音流式交互。

Pipecat 是一个以语音为先的多模态对话 AI Agent 框架。其核心采用基于 Processor 的可组合 Pipeline 架构，数据（音频帧、文本、控制消息）在 Processor 之间异步流动，支持端到端实时语音对话。

框架覆盖完整交互链路：集成 20+ STT、25+ LLM、30+ TTS 服务，支持 Speech-to-Speech（OpenAI Realtime、Gemini Multimodal Live 等），内置基于 ONNX 模型的 Smart Turn Detection 实现本地轮次检测。传输层抽象支持 WebRTC（Daily、LiveKit）、WebSocket、本地音频等协议，并提供 Twilio、Vonage 等电话系统序列化器及原生 WhatsApp Transport。

多模态方面，支持音频、视频、图像的输入输出，可对接 HeyGen、Tavus、Simli 实现数字人对话。对话管理通过 Pipecat Flows 实现结构化状态机，通过 Pipecat Subagents 实现基于共享消息总线的分布式多 Agent 协作。

生态工具链完善：Pipecat CLI 支持项目脚手架与云部署，Whisker 提供实时调试，Tail 提供终端监控，并提供 JavaScript/React/Swift/Kotlin/C++/ESP32 等多平台客户端 SDK。所有第三方服务依赖通过 extras 机制按需安装，核心框架保持轻量。

环境要求：Python ≥ 3.11（推荐 ≥ 3.12），BSD-2-Clause 许可证，最新版本 v1.1.0。

快速安装：

uv init my-pipecat-app && cd my-pipecat-app
uv add "pipecat-ai[anthropic,daily,deepgram,openai]"
cp env.example .env
pipecat init quickstart

待确认：Pipecat Cloud 定价与部署细节未公开；Speech-to-Speech 各服务完整集成状态需参考各自文档；商业实体信息未在仓库中明确说明；缺乏端到端延迟等量化性能基准。

相关项目

Genkit

Gobii Platform

Semble

保持更新