斯坦福和伯克利提出LLMasaVerifier，同时刷新TerminalBench和SWEBench榜首

时间：2026-04-14 20:30:38

　　消息，4 月 14 日，AI 编程代理处理单个任务时，跑多次往往能得到不同的解法，其中可能有对有错。如果能自动挑出最好的那个，整体成功率就能超过单次运行。问题是怎么挑：让另一个模型当裁判打分是目前的主流做法，但打分粒度太粗，经常给不同解法打出相同分数，分不出高下。斯坦福 AI 实验室和伯克利 Sky Computing 实验室联合英伟达提出 LLM-as-a-Verifier，改进了这个挑选过程。不再只看裁判给出的最终分数，而是读取模型在每个评分等级上的概率分布，从中计算出一个连续的奖励值。同时让裁判重复评判多次取平均以消除偶然偏差，并将整体评估拆成三个独立维度分别验证。实验中使用 Gemini 2.5 Flash 作为验证器，单次验证准确率 74.7%，传统 Judge 仅 57.0%；重复 16 次后 Verifier 达 77.4%，Judge 为 70.2%。传统 Judge 有 26.5% 的对比以平局收场，Verifier 在所有配置下平局率均为 0%。实际效果：在 Terminal-Bench 2 上，让 GPT-5.4 跑 5 次同一任务，随机选一个的成功率为 81.8%，用 Verifier 挑选后提升至 86.4%。在 SWE-Bench Verified 上，从 Claude Opus 4.5、Claude Opus 4.6 和 Gemini 3 Flash 各取 1 条解法，挑选后从 76.1% 提升至 77.8%。截至 4 月 9 日发布时，两项均为榜首。框架已开源。

上一篇：美联储希望通胀上升不迫使其行动返回首页

下一篇：Tether推出自托管钱包tetherwallet

热点推荐

1 黄仁勋：祝贺SK海力士在纳斯达克上市并

SK海力士在纳斯达克上市，筹集资金达40万亿韩元。英伟达首席执行官黄仁勋对SK海力士的美国...

2 Anthropic再曝AI Agent四种危险行为：造假、

消息，Anthropic再次披露其AI Agent存在四种危险行为：造假、泄密、改代码和骗评测。研究人员对...

3 国泰海通资管：AI算力产业链远期不确定

消息，国泰海通资管日前表示，当前中证TMT指数估值已攀升至历史高位，板块整体潜在风险正...

4 韩国监管机构将推出单只股票杠杆ETF限制

消息，韩国金融监管机构计划推出单只股票杠杆ETF的限制措施，此时正值Kospi和Kosdaq市场再次遭...

5 欧盟与印度启动“地平线欧洲”计划谈判