当前位置:主页 > 热点 >

斯坦福和伯克利提出LLMasaVerifier,同时刷新TerminalBench和SWEBench榜首

时间:2026-04-14 20:30:38

  消息,4 月 14 日,AI 编程代理处理单个任务时,跑多次往往能得到不同的解法,其中可能有对有错。如果能自动挑出最好的那个,整体成功率就能超过单次运行。问题是怎么挑:让另一个模型当裁判打分是目前的主流做法,但打分粒度太粗,经常给不同解法打出相同分数,分不出高下。 斯坦福 AI 实验室和伯克利 Sky Computing 实验室联合英伟达提出 LLM-as-a-Verifier,改进了这个挑选过程。不再只看裁判给出的最终分数,而是读取模型在每个评分等级上的概率分布,从中计算出一个连续的奖励值。同时让裁判重复评判多次取平均以消除偶然偏差,并将整体评估拆成三个独立维度分别验证。实验中使用 Gemini 2.5 Flash 作为验证器,单次验证准确率 74.7%,传统 Judge 仅 57.0%;重复 16 次后 Verifier 达 77.4%,Judge 为 70.2%。传统 Judge 有 26.5% 的对比以平局收场,Verifier 在所有配置下平局率均为 0%。 实际效果:在 Terminal-Bench 2 上,让 GPT-5.4 跑 5 次同一任务,随机选一个的成功率为 81.8%,用 Verifier 挑选后提升至 86.4%。在 SWE-Bench Verified 上,从 Claude Opus 4.5、Claude Opus 4.6 和 Gemini 3 Flash 各取 1 条解法,挑选后从 76.1% 提升至 77.8%。截至 4 月 9 日发布时,两项均为榜首。框架已开源。

热点推荐
1 美国参议员计划本周公布稳定币收益修订

消息,美国参议员 Thom Tillis 表示,参议院有望于本周公布关于稳定币收益分配的修订草案文本...

2 glassnode:SOL 与 ETH 相对未实现损失分别是

消息,4 月 14 日,glassnode 发推表示,相对未实现亏损以市值百分比来衡量总未实现亏损情况,...

3 德国总理默茨:欧盟将决定对俄实施第

4月14日消息,德国总理默茨:欧盟将决定对俄实施第20轮制裁,以加大对俄的施压力度。...

4 Nava 完成 830 万美元种子轮融资,Polychai

区块链初创公司 Nava 宣布完成 830 万美元种子轮融资,由 Polychain 和 Archetype 共同领投,旨在通...

5 Kraken向未知钱包转移1.5亿USDT

消息,据Whale Alert发推称:Kraken 向未知钱包转移 1.5 亿枚 USDT,价值约 1.5 亿美元。...

6 701枚比特币转入Coinbase机构钱包

消息,据Whale Alert发推称:701 枚比特币从未知钱包转移至 Coinbase Institutional。...

7 Tether推出自托管钱包tetherwallet

消息,据吴说区块链发推称:Tether 推出自托管钱包 tetherwallet,首次将其全球支付与清算基础设...

8 斯坦福和伯克利提出LLMasaVerifier,同时刷

消息,4 月 14 日,AI 编程代理处理单个任务时,跑多次往往能得到不同的解法,其中可能有对...

9 美联储希望通胀上升不迫使其行动

消息,据彭博社发推称:最新通胀数据上升不会迫使美联储采取行动,或者说它希望如此。...

10 Polymarket追踪工具PA Beacon上线,实时监控聪

4月14日消息,预测市场追踪工具PA Beacon正式上线,面向Polymarket提供聪明钱观察与实时提醒服务...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。