BullshitBench✨衡量 AI 模型是否会挑战无意义提示词而非自信回答的基准测试工具,包含 100 道覆盖 5 个领域的无意义问题,采用三级评判体系与多裁判面板机制。Python大语言模型CLI查看详情 →