当前位置:主页 > 业界 >

美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

时间:2026-03-21 10:41:15

  消息,据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化、草图生成和完整证明生成。三项能力均通过 Agent 工具集成推理与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

热点推荐
1 FTX余波加剧,Michelle Bond将于11月9日受审

消息,FTX余波持续发酵,法官已命令Michelle Bond于11月9日在曼哈顿联邦法院受审。此命令是在她...

2 某巨鲸平仓获利440万美元,再次做空912

消息,据Lookonchain监测,某巨鲸此前以20倍杠杆做空比特币、以太坊及Solana,平仓获利440万美元...

3 Stani Kulechov:AAVE将通过证券抵押借贷扩展

消息,AAVE创始人Stani Kulechov表示,AAVE正通过证券抵押借贷及证券借贷业务,将目标市场从加密...

4 泰国对王益承发出逮捕令,涉嫌加密货币

消息,据路透社援引TRM Labs调查,泰国对王益承发出逮捕令,因其涉嫌加密货币洗钱与诈骗。王...

5 Meta聘请Oasis创始人Dawn Song推动AI安全

消息,Meta宣布聘请Oasis Labs创始人Dawn Song担任AI研究副总裁,负责推动公司的AI安全和AI安全性工...

6 Binance退出欧盟对BNB价格的影响

Binance的退出对BNB代币价格产生压力,周五BNB交易价格为566.26美元,较前一日下跌0.3%。在此期间...

7 CZ:欧盟因MiCA规则限制用户接入Binance流动

消息,CZ表示,欧盟因MiCA规则生效,正在切断用户与Binance流动性的连接,Binance也在削减部分欧...

8 BLUAI即将上线Bitget PoolX,锁仓ETH解锁1400万

消息,Bitget宣布,项目bluwhale ai即将上线PoolX,用户锁仓ETH可瓜分1400万枚BLUAI,个人锁仓上限为...

9 主力24h动向:BTC大户成交限价买单更多,

消息,主力在最近24小时内的总成交数据显示,BTC累计成交16.79亿美元,其中买成交11.31亿美元...

10 Binance在欧盟申请新许可证,停止服务通知

Binance已通知欧盟客户,将于下周停止,因为7月1日的MiCA规则截止日期临近。此举是在其在希腊...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。