当前位置:主页 > 快讯 >

Cognition推出FrontierCode:首个衡量代码合并质量的AI评测集

时间:2026-06-09 12:43:48

  消息,Cognition推出全新智能体代码评测集FrontierCode,重点评估AI生成代码的「可合并性」。该评测集由Celery、Budibase、Uppy和Mattermost等36个开源项目维护者共同开发,每项任务由开发者投入超过40小时打磨,划分为Extended、Main和Diamond三个级别。在Diamond任务集上,当前大模型表现仍有提升空间:Claude Opus 4.8得分13.4%,GPT-5.5得分6.3%,Gemini 3.1 Pro得分4.7%,而开源模型Kimi K2.6得分3.8%。为防范大模型作弊,评测集引入多项评估机制,包括反向测试和修改限制。开发团队设计的Mutagent工具将评测误判率降至Swe-bench Pro的五分之一。

热点推荐
1 BTC矿工:比特币可能跌至3万美元,但微策

消息,BTC矿工江卓尔表示,比特币价格可能跌至3万美元,但这不会影响微策略的BTC计划。他指...

2 Saylor指责AI导致比特币崩盘,Arca反驳称无

消息,微策略公司董事长迈克尔Saylor指责AI热潮导致上周比特币的抛售,然而,加密投资公司...

3 谷歌AI Plus订阅价格大降近四成,月费下调

消息,谷歌宣布为入门级AI订阅服务Google AI Plus降价,月费由7.99美元下调至4.99美元,同时将包...

4 Cognition推出FrontierCode:首个衡量代码合并

消息,Cognition推出全新智能体代码评测集FrontierCode,重点评估AI生成代码的「可合并性」。该评...

5 KONET (KONET)现已在KuCoin上线

消息,KuCoin宣布KONET 现已上线!用户可立即进行存款。拍卖时间为2026年6月9日09:00至10:00,提款...

6 BBX:Strategy低位买入1,550枚BTC,持仓升至

消息,BBX宣布,Strategy在6月1日至7日期间购入1,550枚BTC,总持仓升至845,256枚,累计成本约为63...

7 巨鲸追加买入366.65枚WBTC,总持仓超1.42亿

消息,监测显示,一巨鲸在过去23小时内以均价6.35万美元买入366.65枚WBTC,追加投资约233万美元...

8 Arthur Hayes:油价上涨及AI泡沫破裂或拖累

消息,BitMEX联创Arthur Hayes表示,若油价因美伊冲突持续走高,可能引发AI股票泡沫破裂,并拖累...

9 SBI新生银行秋季推出加密货币奖励服务

SBI新生银行计划于今年秋季推出面向存款客户的加密货币奖励服务。客户除获得法定货币存款...

10 Polymarket:SpaceX正式发布首颗AI卫星AI1,计

SpaceX正式发布其首颗AI卫星AI1,具备高达150,000瓦特的计算能力。...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。