当前位置:主页 > 聚焦 >

Perplexity公开搜索Agent后训练方法,基于Qwen3.5的模型在准确率和成本上超过GPT5.4

时间:2026-04-23 14:13:59

  消息,4 月 23 日,据 动察 Beating 监测,Perplexity 研究团队发表技术文章,公开其网页搜索 agent 的后训练流程。该流程基于开源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B,采用两阶段方案:先用监督微调建立指令遵循、语言一致性等部署必需行为,再用在线策略强化学习优化搜索准确率和工具使用效率。 RL 阶段使用 GRPO 算法,训练数据由两部分组成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发,通过实体链构造需要 2 到 4 跳推理的问题,并由多个独立求解器验证答案唯一性;二是基于评分标准的通用对话数据,将指令遵循、格式约束等部署要求转化为可客观检查的原子条件,用于在 RL 阶段防止 SFT 建立的行为退化。 奖励设计的核心是门控聚合:只有基线正确时,偏好得分才参与计算,防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式,以同组正确回答为基准,对超出的工具调用次数和生成长度施加平滑惩罚。 评测显示后训练后的 Qwen3.5-397B-SFT-RL 在多个搜索基准上表现最优。在 FRAMES 上,单次工具调用即达 57.3%,比 GPT-5.4 高 5.7 个百分点,比 Sonnet 4.6 高 4.7 个百分点。中等预算下达 73.9%,每查询成本 2.0 美分;同条件下 GPT-5.4 为 67.8% / 8.5 美分,Sonnet 4.6 为 62.4% / 15.3 美分。成本数据按各厂商公开 API 定价计算,未含缓存优化。

热点推荐
1 BitMine再购10万枚ETH

消息,据Coin Bureau发推称:与 Tom Lee 关联的 BitMine 疑似通过三个新创建的钱包从 BitGo 接收了 ...

2 Perplexity公开搜索Agent后训练方法,基于

消息,4 月 23 日,据 动察 Beating 监测,Perplexity 研究团队发表技术文章,公开其网页搜索 age...

3 Sierra取消编码和算法面试,改为2小时AI辅

消息,4 月 23 日,据 动察 Beating 监测,AI 客服 agent 公司 Sierra 公布重新设计后的工程面试流程...

4 5月1日,60天战争权限耗尽:特朗普还能打

消息,美国国会共和党人多次阻止民主党援引《战争权力法》叫停伊朗军事行动的努力,但5月...

5 日本PMI显示制造业因战事影响而提前释放

消息,日本制造商因担忧中东战事影响供应链,将产量提升至12年来的最高水平,四月制造业...

6 黑客1.75亿美元ETH换BTC

消息,据链上分析师余烬发推称:KelpDAO 黑客在一天半内将 7.57 万枚 ETH 通过 THORChain 跨链兑换...

7 PrimePiper 推出 AI Agent 专用 Prime Broker,打通

消息,PrimePiper 推出面向 AI agent 的企业级 prime broker 平台,旨在解决 AI 自动化交易过程中账户...

8 香港稳定币牌照发放仅为开端

消息,据吴说区块链发推称:香港财政司司长陈茂波表示,香港对Web3机构始终敞开大门,本月...

9 哈塞特支持鲍威尔关于留任“美联储临时

消息,美国白宫经济顾问哈塞特支持美联储主席鲍威尔在继任者未获确认时留任的计划。特朗...

10 山寨币市值或将上涨20

消息,据Michal van de Poppe发推称:山寨币市值正追随比特币步伐,市场分析指出比特币风险较低...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。