当前位置:主页 > 业界 >

Muon训练时自信很准,换到新样本就容易过头

时间:2026-04-27 16:17:20

  消息,Muon优化器在训练时表现出很高的自信度,但在新样本上容易出现过度自信的现象。最新论文《too sharp, too sure: when calibration follows curvature》指出,模型在训练集上能准确判断自己的把握程度,但在测试集上,置信度与实际正确率不符,导致过度自信。实验显示,Muon在CIFAR-10图像分类任务中的测试ECE为0.065,AdamW为0.061,SGD为0.081,SAM为0.020。Muon的训练ECE几乎为0,显示出训练集与测试集之间的落差更明显。论文提出的Calmo方法能将Muon的测试ECE降至0.019,但尚未在大语言模型上验证。DeepSeek V4技术报告显示,部分模块仍使用AdamW,提醒需关注Muon在泛化时的表现。

热点推荐
1 美军加油机现身以色列机场

消息,当地时间5月19日,美军加油机被目击停放在以色列特拉维夫附近的本-古里安国际机场跑...

2 Consensys:FDIC提案可能超出Genius法案限制

消息,Consensys警告称,联邦存款保险公司提出的稳定币框架可能会无意中限制普通分销模式和...

3 X全面接入Agent:官方发教程指导AI怎么刷

消息,开发者团队发布了一份配置指南,指导用户如何为nous research开发的开源终端AI智能体H...

4 Loracle:LIT多单增持261,280枚,当前盈亏+

消息,知名交易员Loracle在HyperLiquid平台增持LIT多单261,280枚,按当前币价计算约合341,332.03美元。...

5 日本石油协会会长:一些日本公司从拉丁

消息,日本石油协会会长表示,一些日本公司正在从拉丁美洲采购原油,包括墨西哥和厄瓜多...

6 Hyperliquid巨鲸:Hyperliquid上未来24小时HYP

消息,Hyperliquid上未来24小时HYPE现货净买盘力量预计将达到210万美元。受HYPE近期持续上扬的影...

7 CZ:开发者需检查GitHub安全漏洞中的API密

消息,币安创始人CZ警告开发者注意GitHub的安全漏洞。他表示:如果你的代码中有API密钥,即使...

8 Bitget新增高通QCOM、诺基亚NOK等10只股票合

消息,Bitget宣布新增高通、诺基亚等10只股票合约,覆盖AI基建、卫星通信、光子互联等多个热...

9 鲸鱼以100万美元购买11206枚AAVE并供应至

一名鲸鱼以100万美元购买了11,206枚AAVE,平均价格为89.24美元,并将其供应至v3。此外,该鲸鱼还...

10 日元或再探160关口,外汇干预风险再度升

消息,嘉盛集团市场分析师Fawad Razaqzada表示,随着日元关键的160关口重新进入视野,日本当局...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。