当前位置:主页 > 业界 >

美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

时间:2026-03-21 10:41:15

  消息,据 1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。模型将形式化推理拆解为三项独立能力:自动形式化、草图生成和完整证明生成。三项能力均通过 Agent 工具集成推理与 Lean4 编译器实时交互验证。训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

热点推荐
1 Hyperliquid早期贡献者Loracle增持CL空单1363

消息,Hyperliquid早期贡献者Loracle最近增持CL空单1,363.64枚,约合1,010,862.41美元,持仓规模达到...

2 2026年4月加密风险投资降至6.59亿美元,创

消息,2026年4月,加密风险投资资金降至6.59亿美元,为2024年以来的最低月度总额,较3月的26亿...

3 Moonpay推出虚拟Mastercard稳定币卡,支持A

消息,Moonpay推出了Moonagents卡,这是一款虚拟的Mastercard产品,允许AI代理和用户直接使用稳定币...

4 Matrixport关联地址(子地址1):ETH多单由

消息,Matrixport关联地址的ETH多单已由亏转盈。该地址的盈亏情况为:从亏损781,764.97美元转为盈...

5 ZEC最大空头:CL空单增持12437.76枚

消息,ZEC最大空头CL空单近期增持12,437.76枚,约合1,227,262.32美元,持仓规模达到16,406,905.40美元...

6 分析师:比特币4月保持12%涨幅,标普50

消息,比特币在4月份结束时价格超过76,000美元,保持了近12%的月度涨幅。然而,标普500指数在...

7 受伊朗战争冲击,英国工厂成本上涨与交

消息,受伊朗战争冲击,英国工厂面临成本上涨与交付延误加剧。调查显示,受霍尔木兹海峡...

8 日本或进行了第二轮干预,日元下跌主趋

消息,分析师Justin Low评估日元汇率波动,指出日本可能进行了第二轮干预,日元下跌的主趋势...

9 法巴银行:中东冲突对日本消费品价格影

消息,法国巴黎银行经济学家表示,中东冲突对日本消费品价格的影响仍然有限。他们指出,...

10 分析师:比特币在77,000美元下方停滞,短

消息,比特币在77,000美元下方停滞,短期交易者在每次BTC上涨超过77,000美元时获利了结,导致...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。