BullshitBench
✨衡量 AI 模型是否会挑战无意义提示词而非自信回答的基准测试工具,包含 100 道覆盖 5 个领域的无意义问题,采用三级评判体系与多裁判面板机制。
模型与推理框架自然语言处理大语言模型
衡量 AI 模型是否会挑战无意义提示词而非自信回答的基准测试工具,包含 100 道覆盖 5 个领域的无意义问题,采用三级评判体系与多裁判面板机制。
可本地运行的 AI 深度研究助手,支持多 LLM、20+ 研究策略、多搜索引擎与 212K+ 学术来源自动评分,生成带引用的 PDF/Markdown 研究报告,提供 CLI、Web、REST API 及 MCP Server 多种交互方式。
收集和整理来自流行聊天机器人(如ChatGPT、Claude和Gemini)的系统提示词的集合库,帮助研究人员了解AI模型的行为边界。
ARGO是一款开源AI助手平台,支持本地模型部署、离线RAG知识库和多智能体协作,让您的数据100%本地存储,打造隐私安全的研究助手。
一个包含ChatGPT越狱方法、提示词泄露、提示词注入、超级提示词和AI安全攻防资源的综合知识库,适合AI研究人员和开发者使用。
第 1 / 1 页 · 共 5 条
获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。