当前位置:主页 > 头条 >

AI现在还当不了自主科学家,CUSP评测揭示大模型缺乏前瞻科研视野

时间:2026-05-26 18:31:47

  消息,斯坦福大学、牛津大学与艾伦人工智能研究所联合推出评估AI科学进展预测能力的时序基准CUSP。评测系统性测试了GPT-5.4、Claude Sonnet 4.5和DeepSeek R1等前沿大模型。结果显示,大模型在理解既有技术路径等机制推理上表现优异,但在预测新发现能否真正实现时,准确率接近随机猜测。此外,大模型对科学进展突破时间的预测也表现出系统性滞后。为测出真实的预测能力,CUSP引入了时序知识截止限制,整理了来自Nature和Science等期刊的多学科前沿进展,基准包含4,760个科学里程碑,衍生出17,429个具体评估任务。评测结果表明,大模型在没有标准答案的科学探索中无法提供可靠指引,现有模型在科学进展预测上尚不能提供可靠的前瞻判断。

热点推荐
1 香港财库局与证监会发布虚拟资产监管制

消息,香港财库局与香港证监会发表有关就虚拟资产的监管制度的咨询总结。拟议的虚拟资产...

2 以色列国防军提供黎巴嫩火箭弹袭击预警

消息,以色列国防军宣布,从今天开始,在作战条件允许的情况下,本土守备司令部将提供来...

3 Bitget推出新平台Reality,推动金融资产代币

消息,Bitget宣布推出名为Reality的合规代币化平台,旨在通过代币化股票和ETF扩展其在美国金融...

4 AI现在还当不了自主科学家,CUSP评测揭示

消息,斯坦福大学、牛津大学与艾伦人工智能研究所联合推出评估AI科学进展预测能力的时序基...

5 小米集团:Xiaomi MiMo

消息,小米集团(公布2026年第一季度业绩,宣布于2026年4月23日正式开启Xiaomi MiMo-V2.5系列大模...

6 荷兰国际:美国利率上升前景或将支撑美

消息,据荷兰国际集团的Chris Turner报告,随着美联储加息前景日益增强,美元预计将获得支撑...

7 比特币价格面临伊朗冲击,交易量暴跌

美国军方在伊朗南部打击导弹发射场和船只,称此举为自卫,并表示停火仍在进行中。比特币...

8 俄方威胁对基辅发动大规模袭击,外交部

消息,5月26日,外交部发言人毛宁主持例行记者会。乌通社记者提问,关于俄乌冲突的问题,...

9 伊朗革命卫队确认追踪到MQ9无人机、RQ4无

消息,伊朗革命卫队声明已确认并追踪到一架MQ9无人机、一架RQ4无人机以及一架F35战斗机。...

10 OKX推出X Layer,支持用户构建自有加密市场

消息,OKX的以太坊兼容二层网络X Layer推出了Exchange OS升级协议,允许开发者、机构和生态团队...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。