当前位置:主页 > 动态 >

研究员:主流AI基准测试全部可被「刷榜」,排行榜数据或严重失真

时间:2026-04-10 10:23:16

  消息,ME News 消息,4 月 10 日,AI 研究员 Hao Wang 发布研究披露,包括 SWE-bench Verified 和 Terminal-Bench 在内的多个业内最权威 AI 基准测试,均存在可被系统性利用的漏洞——其团队构建的 Agent 在未解决任何实际任务的情况下,在两项基准上均取得了满分 100%。 典型案例如下: SWE-bench Verified:在代码仓库中植入一个 10 行的 pytest hook,测试运行前自动将所有结果篡改为通过,评分系统对此毫无察觉,500 道题全部满分; Terminal-Bench:该基准虽对测试文件加以保护,但未保护系统二进制文件。Agent 替换了 curl,拦截验证器的依赖安装流程,完成底层劫持; WebArena:参考答案以明文存储在本地 JSON 配置文件中,且 Playwright Chromium 未限制 file:// 协议访问,模型可直接读取答案后原样输出。 团队对 8 个基准测试的审计发现了 7 类重复出现的共性漏洞,包括:Agent 与评估器之间缺乏隔离、答案随测试一同下发、LLM 裁判易遭提示注入攻击等。值得警惕的是,评估系统绕过行为已在 o3、Claude 3.7 Sonnet 及 Mythos Preview 等前沿模型中被自发观测到,无需显式指令触发。 团队据此开发了基准测试漏洞扫描工具 WEASEL,可自动分析评估流程、定位隔离边界薄弱点并生成可用漏洞利用代码,相当于针对基准测试的「渗透测试」工具,目前开放早期访问申请。

热点推荐
1 马斯克言论反推:Claude Opus参数量或达5万

消息,4 月 10 日,马斯克近日在 X 平台的一则回复,意外引发外界对 Anthropic 旗舰模型参数规模...

2 Ondo Finance向Coinbase转移1.16亿枚ONDO

消息,据链上分析师余烬发推称:过去一个半月,Ondo Finance 的多签钱包向 Coinbase 累计转移约...

3 研究员:主流AI基准测试全部可被「刷榜

消息,ME News 消息,4 月 10 日,AI 研究员 Hao Wang 发布研究披露,包括 SWE-bench Verified 和 Termina...

4 xAI起诉科罗拉多州新AI反歧视法

消息,据彭博社发推称:马斯克旗下人工智能公司xAI起诉科罗拉多州,旨在阻止该州一项新法...

5 WLFI下周拟提交解锁早期代币提案,回应借

消息,ME News 消息,4 月 10 日, WLFI 官方发文回应市场关于其在 WLFI Markets 借贷头寸的质疑,表...

6 币界早讯 美财长贝森特:国会须通过《清

4月10日消息: 1. 法国拟议法案要求加密持有者申报超5000欧元的自托管钱包; 2. 美财长贝森特...

7 美国财政部推出数字资产行业网络安全信

消息,美国财政部网络安全与关键基础设施保护办公室宣布推出一项面向数字资产行业的网络...

8 消息称Anthropic正探索自主研发AI芯片

消息,据市场消息,人工智能公司Anthropic正探索自主设计AI芯片的可能性,以缓解行业普遍面临...

9 Solana链上L1流动性激增

消息,据toly ??发推称:Solana 生态流动性聚合协议 Jupiter 宣布,其 LFG Launchpad 平台上的首个项目...

10 美国国会预算办公室:预计美国3月份预算

消息,4 月 10 日,美国国会预算办公室表示,预计美国 3 月份预算赤字达 1630 亿美元。...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。