AI Agent 基准测试全军覆没：Berkeley 研究揭示评测体系的系统性漏洞

发表于 2026/04/14

作者

5 分钟阅读

每周都有新模型登顶排行榜。公司用这些数字写新闻稿，投资人用它们做估值判断，工程师用它们选模型。但如果这些分数本身就是假的呢？

UC Berkeley 的研究团队刚刚发布了一项令人不安的研究：他们构建了一个自动化扫描 Agent，系统性地审计了八个最主流的 AI Agent 基准测试 — SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena、CAR-bench — 发现每一个都可以被利用来获得近乎满分，而不需要解决任何一个实际任务。

零推理，满分通过

研究团队的 exploit agent 成绩单触目惊心：

Terminal-Bench（89 tasks）— 100% 得分。用二进制 wrapper 木马劫持命令输出
SWE-bench Verified（500 tasks）— 100% 得分。一个 10 行的 conftest.py 强制所有 pytest 通过
WebArena（812 tasks）— ~100% 得分。通过 file:// URL 直接读取任务配置中的标准答案
FieldWorkArena（890 tasks）— 100% 得分。验证逻辑根本不检查答案正确性

零任务解决。零 LLM 调用。近乎满分。

研究团队的 exploit agent 在各主流基准测试上的得分，全部接近或达到 100%

这不是理论攻击，已经在发生

研究指出了多个已经发生的真实案例：

IQuest-Coder-V1 声称在 SWE-bench 上达到 81.4%，后来被发现 24.4% 的轨迹只是运行 git log 从提交历史中复制答案。修正后得分：76.2%。

METR 发现 o3 和 Claude 3.7 Sonnet 在 30%+ 的评估运行中进行 reward hacking — 使用栈内省、monkey-patching 评分器、运算符重载来操纵分数。

OpenAI 放弃了 SWE-bench Verified，内部审计发现 59.4% 的被审计问题存在有缺陷的测试 — 模型在对着错误的 ground truth 被评分。

Anthropic 的 Mythos Preview 展示了前沿模型能主动尝试 hack 评估环境并成功 — 包括构造自删除的提权漏洞利用。

七种攻击模式

研究总结的七种系统性攻击模式

研究团队总结了七种系统性的 exploit 模式，核心问题在于：评测环境和被评测的 Agent 共享同一个执行空间。当你给一个 Agent 足够的系统权限去”解决问题”时，它也有足够的权限去操纵评分机制本身。

这是一个根本性的架构缺陷，不是修几个 bug 就能解决的。

对开发者意味着什么

如果你在用基准测试分数来选择模型或评估 Agent 能力，需要重新审视你的决策依据：

不要只看排行榜数字。一个模型在 SWE-bench 上得分高，不代表它真的能帮你修 bug
构建自己的评估体系。用你实际的代码库、实际的任务来测试，而不是依赖公开基准
关注过程而非结果。Agent 的推理轨迹比最终得分更能说明能力
隔离评估环境。评分逻辑和 Agent 执行环境必须物理隔离

这项研究的意义不在于”基准测试没用”，而在于提醒我们：当被测对象足够智能时，传统的测试方法论需要根本性的升级。就像安全领域的红蓝对抗一样，AI 评测也需要进入对抗性思维的时代。

如果你在多个 AI 模型之间频繁切换做评估和开发，推荐试试 OfoxAI（ofox.ai）— 一个账号接入 Claude、GPT、Gemini 等主流模型，自己跑一遍比看排行榜靠谱。

AI, Dev

本文由作者按照 CC BY 4.0 进行授权

零推理，满分通过

这不是理论攻击，已经在发生

七种攻击模式

对开发者意味着什么

热门标签