当前位置:主页 > 业界 >

SDPG算法开源:让Agent自己教自己,多步规划训练不再依赖大教师模型

时间:2026-06-04 20:10:10

  消息,SDPG算法由加州大学洛杉矶分校顾全全团队的刘益枫、张诗源与普林斯顿大学的张伊凡开源,旨在解决智能体在缺乏外部教师模型指导时的自我进化瓶颈。该算法通过内部教师引导机制,利用特权信息生成高质量推理路径,提升多步决策的训练效率与成功率。评测数据显示,SDPG在数学推理与多步规划任务中表现优于GRPO及多种自蒸馏基线算法。

热点推荐
1 标准Chartered银行:比特币回调至6.2万美元

消息,标准Chartered银行表示,比特币回调至6.2万美元是大家期待的买入区间,并认为低点几乎...

2 Helion完成4.65亿美元融资,估值达155亿美元

消息,核聚变能源初创公司Helion宣布完成4.65亿美元融资,估值达到155亿美元,几乎是此前5.4...

3 摩根士丹利增持220.721枚比特币,总持仓达

消息,据Arkham监测数据显示,摩根士丹利通过旗下现货比特币交易所交易基金MSBT今日增持220...

4 SDPG算法开源:让Agent自己教自己,多步规

消息,SDPG算法由加州大学洛杉矶分校顾全全团队的刘益枫、张诗源与普林斯顿大学的张伊凡开...

5 第聂伯罗彼得罗夫斯克地区泽连多尔斯克

消息,乌克兰武装部队空军:第聂伯罗彼得罗夫斯克地区泽连多尔斯克以北发现无人机,正向...

6 美媒:内塔尼亚胡在特朗普和大选之间左

两名美国高级官员表示,虽然特朗普希望结束战争,但内塔尼亚胡似乎想恢复战争。一位美国...

7 OKX Agent Trade Kit推出赚币猎手,支持AI自动

消息,OKX Agent Trade Kit已推出赚币猎手功能,支持用户通过AI Agent对OKX赚币产品进行724小时自动...

8 美国5月因AI裁员人数创纪录高位

消息,报告显示美国5月因人工智能原因裁员人数升至纪录高位。美国就业数据公司挑战者报告...

9 1450亿开支压顶:Meta屡次推迟Muse Spark AP

消息,Meta多次推迟最新AI模型Muse Spark的API开放计划,至今未确定发布日期。发言人表示正与伙...

10 高盛与Apex、Archax合作推出代币化房地产基

消息,高盛宣布与基金服务巨头Apex Group和数字资产交易所Archax合作,推出代币化房地产基金。...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。