发现 AI 代理的未来

全部项目

6 个项目

BullshitBench

衡量 AI 模型是否会挑战无意义提示词而非自信回答的基准测试工具,包含 100 道覆盖 5 个领域的无意义问题,采用三级评判体系与多裁判面板机制。

模型与推理框架自然语言处理大语言模型

OpenJarvis

斯坦福出品的本地优先个人 AI 代理框架,通过五大可组合原语实现离线智能体编排、技能导入与 trace 驱动持续学习,支持 10+ 推理后端与四种交互方式。

其他大语言模型MCP

Inspect (Inspect AI)

英国 AI 安全研究所开源的大语言模型评估框架,采用模块化 Datasets/Solvers/Scorers 三层架构,支持多模型、多工具、沙箱环境的标准化评测,包含 100+ 预构建评估基准。

模型与推理框架SDKAI代理

Heretic

语言模型全自动审查移除工具,通过方向性消融与TPE参数优化自动移除模型安全对齐,在最小化拒绝行为的同时保留模型原始能力。支持稠密模型、多模态模型和MoE架构。

多模态大语言模型Transformers

安达AI代理框架

一个基于Rust构建的AI代理框架,整合ICP区块链和可信执行环境(TEE),旨在创建可组合、自主且具有永久记忆能力的AI代理网络。

智能体与应用工具RustLangChain

JudgeVal - AI评估框架

一个开源的AI模型评估框架,专注于安全性和符合性评估,为开发者和研究人员提供标准化评估方法。

模型与推理框架PythonPyTorch
每页

第 1 / 1 页 · 共 6 条

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。