当前位置:主页 > 动态 >

研究员:主流AI基准测试全部可被「刷榜」,排行榜数据或严重失真

时间:2026-04-10 10:23:16

  消息,ME News 消息,4 月 10 日,AI 研究员 Hao Wang 发布研究披露,包括 SWE-bench Verified 和 Terminal-Bench 在内的多个业内最权威 AI 基准测试,均存在可被系统性利用的漏洞——其团队构建的 Agent 在未解决任何实际任务的情况下,在两项基准上均取得了满分 100%。 典型案例如下: SWE-bench Verified:在代码仓库中植入一个 10 行的 pytest hook,测试运行前自动将所有结果篡改为通过,评分系统对此毫无察觉,500 道题全部满分; Terminal-Bench:该基准虽对测试文件加以保护,但未保护系统二进制文件。Agent 替换了 curl,拦截验证器的依赖安装流程,完成底层劫持; WebArena:参考答案以明文存储在本地 JSON 配置文件中,且 Playwright Chromium 未限制 file:// 协议访问,模型可直接读取答案后原样输出。 团队对 8 个基准测试的审计发现了 7 类重复出现的共性漏洞,包括:Agent 与评估器之间缺乏隔离、答案随测试一同下发、LLM 裁判易遭提示注入攻击等。值得警惕的是,评估系统绕过行为已在 o3、Claude 3.7 Sonnet 及 Mythos Preview 等前沿模型中被自发观测到,无需显式指令触发。 团队据此开发了基准测试漏洞扫描工具 WEASEL,可自动分析评估流程、定位隔离边界薄弱点并生成可用漏洞利用代码,相当于针对基准测试的「渗透测试」工具,目前开放早期访问申请。

热点推荐
1 Zed内置Agent打通ChatGPT订阅:逆势免除按量

消息,Zed代码编辑器宣布,其内置AI Agent现已原生接入ChatGPT账号,用户登录后可通过个人的C...

2 100%胜率巨鲸的ETH对手盘:BTC空单减持43

消息,某地址于2026年5月16日减持BTC空单43.15枚,按当前价格计算约合3378023.37美元。该地址持仓...

3 加沙地带48小时内数次袭击致13人死亡

消息,过去48小时内,加沙地带发生数起袭击事件,导致13人死亡,57人受伤。当地时间16日,加...

4 日本金融厅推出加密资产仲介业注册制度

日本金融厅于5月15日面向企业和相关机构在线举行电子支付手段・加密资产服务仲介业注册事...

5 Bitmine大规模增持89,026枚ETH,价值约1.98亿

在以太坊价格跌至约2200美元后,以太坊财库公司Bitmine继续大规模增持ETH。1小时前,89,026枚E...

6 马斯克收购Twitter后投资者翻盘,靠Space

消息,马斯克于2022年以440亿美元收购Twitter,吸引了Larry Ellison、Andreessen Horowitz、Bill Ackman等知...

7 Kraken宣布AVA现已上线交易

消息,Kraken宣布AVA现已可进行交易。用户可通过资金页面添加AVA资产,并确保将代币存入Krak...

8 波兰下议院通过MICA加密法案,ZondaCrypto诈

波兰下议院已批准一项长期延迟的加密资产法案,以使国家规则与欧盟的MICA框架保持一致。立...

9 美联储终止对瑞银和瑞士信贷执法行动

消息,美联储委员会已终止对瑞银和瑞士信贷于2023年与Archegos交易相关的执法行动。...

10 伊朗战争冲击供应,美国炼油厂加速满负

消息,由于伊朗战争切断了波斯湾的能源供应,美国炼油商正在加紧生产燃料,以填补汽油、...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。