消息,4 月 23 日,据 动察 Beating 监测,Perplexity 研究团队发表技术文章,公开其网页搜索 agent 的后训练流程。该流程基于开源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B,采用两阶段方案:先用监督微调建立指令遵循、语言一致性等部署必需行为,再用在线策略强化学习优化搜索准确率和工具使用效率。 RL 阶段使用 GRPO 算法,训练数据由两部分组成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发,通过实体链构造需要 2 到 4 跳推理的问题,并由多个独立求解器验证答案唯一性;二是基于评分标准的通用对话数据,将指令遵循、格式约束等部署要求转化为可客观检查的原子条件,用于在 RL 阶段防止 SFT 建立的行为退化。 奖励设计的核心是门控聚合:只有基线正确时,偏好得分才参与计算,防止高偏好信号掩盖事实错误。效率惩罚采用组内锚定方式,以同组正确回答为基准,对超出的工具调用次数和生成长度施加平滑惩罚。 评测显示后训练后的 Qwen3.5-397B-SFT-RL 在多个搜索基准上表现最优。在 FRAMES 上,单次工具调用即达 57.3%,比 GPT-5.4 高 5.7 个百分点,比 Sonnet 4.6 高 4.7 个百分点。中等预算下达 73.9%,每查询成本 2.0 美分;同条件下 GPT-5.4 为 67.8% / 8.5 美分,Sonnet 4.6 为 62.4% / 15.3 美分。成本数据按各厂商公开 API 定价计算,未含缓存优化。
消息,SpaceX IPO成为加密市场测试股票代币化的重要案例。Hyperliquid上的SpaceX永续合约首日成交...
2 AI代币因Anthropic禁令上涨,TAO达三周新高消息,随着Anthropic限制AI模型的访问,Bittensor的TAO代币在12小时内上涨了30%,达到了近283美元的...
3 Zcash漏洞新闻:AI审计在修复后清除协议风消息,Zcash创始人Zooko Wilcox表示,经过Orchard漏洞修复后,AI辅助的安全审计未发现Zcash协议中新...
4 高位布空交易员MU空单浮亏扩大消息,高位布空交易员MU的空单浮亏扩大,目前盈亏已从-4,977,529.86美元扩大至-6,012,795.26美元。...
5 Binance Margin:新推出平仓转换选项消息,Binance宣布将于2026年6月17日10:00起,逐步推出平仓功能的新转换选项。此功能将通过灰度...
6 知名交易员Loracle增持HYPE多单18050.34枚消息,知名交易员Loracle增持HYPE多单18,050.34枚,约合2,032,327.24美元。当前持仓规模为10,175,415....
7 CryptoQuant:币安比特币期货交易量突破8消息,CryptoQuant分析师Darkfost_coc指出,币安的比特币期货交易量已超过800万亿美元。...
8 Circle今日再铸造10亿美元USDC,过去一周共消息,Circle今日再铸造10亿美元的USDC,过去一周共铸造35亿美元的USDC。...
9 Grok Build推出代理控制面板,单终端多会话消息,Grok Build推出了代理控制面板,支持单终端多会话调度,旨在解决人工阻塞问题。开发者...
10 以色列军队若不从战争中占领的土地上撤消息,伊朗外长阿拉格齐:以色列军队若不从战争中占领的土地上撤出,战争结束便无法实现...
成都来彰科技 蜀ICP备2025134723号-1
资讯来源互联网,如有版权问题请联系管理员删除。