当前位置:主页 > 聚焦 >

Perplexity公开搜索Agent后训练方法,基于Qwen3.5的模型在准确率和成本上超过GPT5.4

时间:2026-04-23 14:13:59

  消息,4 月 23 日,据 动察 Beating 监测,Perplexity 研究团队发表技术文章,公开其网页搜索 agent 的后训练流程。该流程基于开源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B,采用两阶段方案:先用监督微调建立指令遵循、语言一致性等部署必需行为,再用在线策略强化学习优化搜索准确率和工具使用效率。 RL 阶段使用 GRPO 算法,训练数据由两部分组成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发,通过实体链构造需要 2 到 4 跳推理的问题,并由多个独立求解器验证答案唯一性;二是基于评分标准的通用对话数据,将指令遵循、格式约束等部署要求转化为可客观检查的原子条件,用于在 RL 阶段防止 SFT 建立的行为退化。 奖励设计的核心是门控聚合:只有基线正确时,偏好得分才参与计算,防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式,以同组正确回答为基准,对超出的工具调用次数和生成长度施加平滑惩罚。 评测显示后训练后的 Qwen3.5-397B-SFT-RL 在多个搜索基准上表现最优。在 FRAMES 上,单次工具调用即达 57.3%,比 GPT-5.4 高 5.7 个百分点,比 Sonnet 4.6 高 4.7 个百分点。中等预算下达 73.9%,每查询成本 2.0 美分;同条件下 GPT-5.4 为 67.8% / 8.5 美分,Sonnet 4.6 为 62.4% / 15.3 美分。成本数据按各厂商公开 API 定价计算,未含缓存优化。

热点推荐
1 Zcash漏洞新闻:AI审计在修复后清除协议风

消息,Zcash创始人Zooko Wilcox表示,经过Orchard漏洞修复后,AI辅助的安全审计未发现Zcash协议中新...

2 高位布空交易员MU空单浮亏扩大

消息,高位布空交易员MU的空单浮亏扩大,目前盈亏已从-4,977,529.86美元扩大至-6,012,795.26美元。...

3 Binance Margin:新推出平仓转换选项

消息,Binance宣布将于2026年6月17日10:00起,逐步推出平仓功能的新转换选项。此功能将通过灰度...

4 知名交易员Loracle增持HYPE多单18050.34枚

消息,知名交易员Loracle增持HYPE多单18,050.34枚,约合2,032,327.24美元。当前持仓规模为10,175,415....

5 CryptoQuant:币安比特币期货交易量突破8

消息,CryptoQuant分析师Darkfost_coc指出,币安的比特币期货交易量已超过800万亿美元。...

6 Circle今日再铸造10亿美元USDC,过去一周共

消息,Circle今日再铸造10亿美元的USDC,过去一周共铸造35亿美元的USDC。...

7 Grok Build推出代理控制面板,单终端多会话

消息,Grok Build推出了代理控制面板,支持单终端多会话调度,旨在解决人工阻塞问题。开发者...

8 以色列军队若不从战争中占领的土地上撤

消息,伊朗外长阿拉格齐:以色列军队若不从战争中占领的土地上撤出,战争结束便无法实现...

9 俄克拉荷马州警告投资者关于BG Wealth和

消息,俄克拉荷马州证券监管机构警告投资者,BG Wealth Sharing Ltd及两个交易平台DSJ Exchange Pty...

10 巨鲸地址在Aster开仓14694枚ETHUSDT多单

消息,据Aster链上浏览器数据,某巨鲸地址在Aster上开仓14,694枚ETHUSDT多单,整体仓位价值达25...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。