研究员：主流AI基准测试全部可被「刷榜」，排行榜数据或严重失真

时间：2026-04-10 10:23:16

　　消息，ME News 消息，4 月 10 日，AI 研究员 Hao Wang 发布研究披露，包括 SWE-bench Verified 和 Terminal-Bench 在内的多个业内最权威 AI 基准测试，均存在可被系统性利用的漏洞——其团队构建的 Agent 在未解决任何实际任务的情况下，在两项基准上均取得了满分 100%。典型案例如下： SWE-bench Verified：在代码仓库中植入一个 10 行的 pytest hook，测试运行前自动将所有结果篡改为通过，评分系统对此毫无察觉，500 道题全部满分； Terminal-Bench：该基准虽对测试文件加以保护，但未保护系统二进制文件。Agent 替换了 curl，拦截验证器的依赖安装流程，完成底层劫持； WebArena：参考答案以明文存储在本地 JSON 配置文件中，且 Playwright Chromium 未限制 file:// 协议访问，模型可直接读取答案后原样输出。团队对 8 个基准测试的审计发现了 7 类重复出现的共性漏洞，包括：Agent 与评估器之间缺乏隔离、答案随测试一同下发、LLM 裁判易遭提示注入攻击等。值得警惕的是，评估系统绕过行为已在 o3、Claude 3.7 Sonnet 及 Mythos Preview 等前沿模型中被自发观测到，无需显式指令触发。团队据此开发了基准测试漏洞扫描工具 WEASEL，可自动分析评估流程、定位隔离边界薄弱点并生成可用漏洞利用代码，相当于针对基准测试的「渗透测试」工具，目前开放早期访问申请。

上一篇：xAI起诉科罗拉多州新AI反歧视法返回首页

下一篇：Ondo Finance向Coinbase转移1.16亿枚ONDO

热点推荐

1 Tom Lee：ETHBTC汇率走高反映投资者预期加密

消息，Bitmine董事长Tom Lee表示，ETH/BTC汇率上升反映投资者预期加密货币用例的可见度改善。...

2 Circle：USDC在稳定币交易中占主导地位

消息，Circle的USDC在2026年6月的稳定币交易中占据主导地位，处理的调整后交易量超过Tether的U...

3 麻吉黄立成：ETH多单止盈，减持1300枚

消息，麻吉黄立成在ETH多单上止盈，减持1,300枚ETH，约合2,853,650美元。当前持仓规模为16,123,0...

4 BTC OG内幕巨鲸「 BTC 多仓 TOP 1」：BTC OG内

消息，BTC OG内幕巨鲸的多单浮亏已扩大至1800万美元，亏损比例达到114.60%。该巨鲸的均价为76...

5 俄罗斯国防部：击落了613架无人机