当前位置:主页 > 业界 >

美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

时间:2026-03-21 10:41:15

  消息,据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化、草图生成和完整证明生成。三项能力均通过 Agent 工具集成推理与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

热点推荐
1 数据:过去24小时全网合约爆仓 3.46 亿美

消息,ME News 消息,3 月 21 日,据 MyToken 数据显示,过去24小时加密货币市场全网合约爆仓 3....

2 美团开源560B参数定理证明模型:72次推理

消息,据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专...

3 Chainlink Maxi 分享了为什么 LINK 比 XRP 更适

Chainlink大使Zach Rynes批评XRP是幽灵链,并指责Ripple优先考虑股权股东而非代币投资者,此举引发...

4 特朗普:目前不想停火,霍尔木兹海峡会

消息,3 月 21 日,特朗普最新表示,他可以与伊朗进行对话,但目前不想停火,并表示尽管盟...

5 XRP、以太坊等加密货币遭遇美国证券交易

在一位美国证券交易委员会官员暗示大多数加密资产并非证券后,XRP 和以太坊正处于美国监管...

6 NVIDIA GTC 2026大会落幕,官方感谢与会者参

消息,ME News 消息,3 月 21 日,NVIDIA GTC官方账号于今日发布推文,正式感谢所有参与者加入G...

7 彼得·希夫的噩梦:比特币坚挺,黄金暴

尽管黄金价格大幅下跌,跌破每盎司4500美元,较1月份的高点下跌超过1100美元,但比特币价格...

8 Solana基金会主席称加密游戏已死

Solana基金会主席Lily Liu关于区块链游戏不会再回来了的言论引发了争议,这与该领域数十亿美元...

9 Coinbase CEO:比特币将巩固美元主导地位

消息,据Watcher.Guru发推称:Coinbase CEO Brain Armstrong 表示,比特币将有助于维持美元的主导地位。...

10 USDC Treasury销毁1.13亿美元USDC

消息,据Whale Alert发推称:USDC Treasury 销毁 1.13 亿枚 USDC,价值约 1.13 亿美元。...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。