开源 LLMOps 平台,以 Rust 高性能网关统一 LLM 接入、可观测性、评估、优化与实验
TensorZero 是一个面向生产环境的开源 LLMOps 平台,由 TensorZero Inc.(NYC,获 $7.3M 种子轮融资)开发维护,采用 Apache-2.0 许可证。其核心是一个 Rust 编写的高性能 LLM 网关(<1ms p99 延迟开销,10k+ QPS),通过统一 API 接入 Anthropic、OpenAI、Azure、AWS Bedrock、GCP Vertex AI、Mistral、DeepSeek 等 18+ 提供商,内置路由、重试、fallback、负载均衡、速率限制与认证机制。
平台围绕 Function → Variant 的核心数据模型构建:Function 定义任务意图,Variant 定义具体实现(prompt + model 组合),通过 tensorzero.toml 声明式配置驱动,天然适配 GitOps 工作流。API 层完全兼容 OpenAI SDK,现有应用可低门槛迁移。
在可观测性方面,TensorZero 提供自托管存储方案(Postgres 默认 / ClickHouse 高吞吐),配套 Web UI 查看单条推理与聚合指标,支持从历史推理构建数据集、回放推理过程,并通过 OpenTelemetry OTLP 与 Prometheus 标准导出,无缝对接现有可观测性工具链。
评估体系分为推理级(启发式 + LLM 评判,类比单元测试)与工作流级(类比集成测试)两层,LLM 评判器可优化以对齐人类偏好。优化能力涵盖 SFT、RLHF、GEPA 自动提示工程、DICL 动态上下文学习、best-of-N / mixture-of-N 采样,形成从生产数据到更优模型的反馈飞轮。实验管理支持自适应与静态 A/B 测试及命名空间隔离,Episode 概念支撑多轮对话场景。
典型应用包括:企业统一 LLM 网关降低集成复杂度、通过微调 + DICL 使小模型在特定任务超越大模型(成本与延迟大幅降低)、Agentic RAG 多跳问答系统、多模态微调(如文档图像分类)、银行代码变更日志自动化等生产场景。部署方式支持 Docker 单容器、Docker Compose(约 5 分钟上手)及 Kubernetes + Helm。