Perplexity公开搜索Agent后训练方法，基于Qwen3.5的模型在准确率和成本上超过GPT5.4

时间：2026-04-23 14:13:59

　　消息，4 月 23 日，据动察 Beating 监测，Perplexity 研究团队发表技术文章，公开其网页搜索 agent 的后训练流程。该流程基于开源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B，采用两阶段方案：先用监督微调建立指令遵循、语言一致性等部署必需行为，再用在线策略强化学习优化搜索准确率和工具使用效率。 RL 阶段使用 GRPO 算法，训练数据由两部分组成：一是自研合成的多跳可验证问答数据集，从内部种子查询出发，通过实体链构造需要 2 到 4 跳推理的问题，并由多个独立求解器验证答案唯一性；二是基于评分标准的通用对话数据，将指令遵循、格式约束等部署要求转化为可客观检查的原子条件，用于在 RL 阶段防止 SFT 建立的行为退化。奖励设计的核心是门控聚合：只有基线正确时，偏好得分才参与计算，防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式，以同组正确回答为基准，对超出的工具调用次数和生成长度施加平滑惩罚。评测显示后训练后的 Qwen3.5-397B-SFT-RL 在多个搜索基准上表现最优。在 FRAMES 上，单次工具调用即达 57.3%，比 GPT-5.4 高 5.7 个百分点，比 Sonnet 4.6 高 4.7 个百分点。中等预算下达 73.9%，每查询成本 2.0 美分；同条件下 GPT-5.4 为 67.8% / 8.5 美分，Sonnet 4.6 为 62.4% / 15.3 美分。成本数据按各厂商公开 API 定价计算，未含缓存优化。

上一篇：Sierra取消编码和算法面试，改为2小时AI辅助产品构建返回首页

下一篇：BitMine再购10万枚ETH

热点推荐

1 SpaceX IPO成为加密市场股票代币化重要案例

消息，SpaceX IPO成为加密市场测试股票代币化的重要案例。Hyperliquid上的SpaceX永续合约首日成交...

2 AI代币因Anthropic禁令上涨，TAO达三周新高

消息，随着Anthropic限制AI模型的访问，Bittensor的TAO代币在12小时内上涨了30%，达到了近283美元的...

3 Zcash漏洞新闻：AI审计在修复后清除协议风

消息，Zcash创始人Zooko Wilcox表示，经过Orchard漏洞修复后，AI辅助的安全审计未发现Zcash协议中新...

4 高位布空交易员MU空单浮亏扩大

消息，高位布空交易员MU的空单浮亏扩大，目前盈亏已从-4,977,529.86美元扩大至-6,012,795.26美元。...

5 Binance Margin：新推出平仓转换选项