当前位置:主页 > 头条 >

AI现在还当不了自主科学家,CUSP评测揭示大模型缺乏前瞻科研视野

时间:2026-05-26 18:31:47

  消息,斯坦福大学、牛津大学与艾伦人工智能研究所联合推出评估AI科学进展预测能力的时序基准CUSP。评测系统性测试了GPT-5.4、Claude Sonnet 4.5和DeepSeek R1等前沿大模型。结果显示,大模型在理解既有技术路径等机制推理上表现优异,但在预测新发现能否真正实现时,准确率接近随机猜测。此外,大模型对科学进展突破时间的预测也表现出系统性滞后。为测出真实的预测能力,CUSP引入了时序知识截止限制,整理了来自Nature和Science等期刊的多学科前沿进展,基准包含4,760个科学里程碑,衍生出17,429个具体评估任务。评测结果表明,大模型在没有标准答案的科学探索中无法提供可靠指引,现有模型在科学进展预测上尚不能提供可靠的前瞻判断。

热点推荐
1 Sovra完成200万美元种子前融资,Pharsalus

消息,Sovra宣布完成200万美元种子前融资,由Pharsalus Capital领投。Sovra定位为面向中东和北非地...

2 Hut 8同意支付235万美元和解证券集体诉讼

消息,比特币矿企Hut 8已同意支付235万美元,以和解投资者发起的拟议证券集体诉讼。投资者指...

3 首尔法院判决Coinone与Cross Finance Korea赔偿

首尔南部地方法院判决,韩国虚拟资产交易所Coinone起诉在线投资金融公司Cross Finance Korea的9亿...

4 香港证监会将AurumAurum基金会列入可疑虚拟

消息,香港证监会将Aurum/Aurum基金会列入可疑虚拟资产交易平台名单,因其宣称在香港根据《公...

5 某巨鲸以40倍杠杆做多1100枚BTC,价值约

消息,据Lookonchain数据,某巨鲸以40倍杠杆做多1100枚BTC,价值约7054万美元,清算价格为6.1724万...

6 James Wynn持有40倍杠杆比特币空头仓位,再

消息,据onchain lens监测,James Wynn因持有40倍杠杆比特币空头仓位,再次遭遇部分清算。...

7 “jaredfromsubway” MEV利用者转移2000枚ETH,

消息,链上监测显示,MEV利用者jaredfromsubway转移了2000枚ETH,通过现金出售了1422枚ETH,获得约...

8 Renaiss Protocol完成150万美元首轮融资

消息,Renaiss Protocol宣布完成150万美元的首轮融资,由YZI Labs领投,参与投资的还有Gate Ventures、...

9 Micron与Anthropic签署AI基础设施供应协议并

消息,Micron宣布与Anthropic签署了一项AI基础设施供应协议,并参与了该公司最新一轮融资。...

10 Coinbase将新增Marvell Technology和iShares MSCI

消息,吴说获悉,Coinbase将新增Marvell Technology和iShares MSCI South Korea ETF永续合约交易。MRVL-PERP与...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。