发现 AI 代理的未来

全部项目

1 个项目

BullshitBench

衡量 AI 模型是否会挑战无意义提示词而非自信回答的基准测试工具,包含 100 道覆盖 5 个领域的无意义问题,采用三级评判体系与多裁判面板机制。

Python大语言模型CLI
每页

第 1 / 1 页 · 共 1 条

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。