当前位置:主页 > 热点 >

RL微调让4B模型金融问答超越235B:Snorkel AI开源FinQA训练环境

时间:2026-03-31 14:12:47

  消息,据 1M AI News 监测,Snorkel AI 发布 FinQA,一个基于线-K 财务文件构建的强化学习训练环境,现已开源于 Meta PyTorch 与 Hugging Face 联合维护的 OpenEnv 平台。FinQA 覆盖 22 家上市公司的 290 道专家标注财务问答,向 Agent 提供 4 个 MCP 工具:列出可用财务表、获取表结构、执行 SQL 查询、提交答案。SQL 强制要求过滤条件且禁止 `SELECT *`,迫使 Agent 只取所需数据,而非倾倒整张表。Snorkel AI 与加州大学伯克利分校 rLLM 团队合作,用 FinQA 对 Qwen3-4B 进行强化学习微调,结果在金融问答基准 SnorkelFinance 上得分 59.7%,超过同系列 Qwen3-235B,参数量约为后者的 1/60,推理成本降约 90%。关键发现:大模型能推理,但会产生幻觉列名、无视 SQL 约束;RL 训练后的小模型反而能精准调用工具,「工具纪律」而非规模才是瓶颈。FinQA 是 Snorkel AI 在 OpenEnv 发布的首个开源环境,后续将推出覆盖医疗、保险、法律等行业的多轮次企业环境。

热点推荐
1 Circle在Solana链上铸造7.5亿枚USDC

消息,据吴说区块链发推称:Circle 在 Solana 链上 24 小时内铸造了约 7.5 亿枚 USDC。...

2 上次石油价格出现这种波动时,比特币还

比特币正在测试 67,000 美元的支撑位,该关键支撑区域曾是 2021 年周期的高点。与 1973 年相比,...

3 谷歌:量子攻击比特币仅需9分钟,成功率

消息,据Coin Bureau发推称:谷歌量子团队最新研究显示,破解比特币可能只需不到50万个量子比...

4 RL微调让4B模型金融问答超越235B:Snorkel

消息,据 1M AI News 监测,Snorkel AI 发布 FinQA,一个基于线-K 财务文件构建的强化学习训练环境,...

5 华商高端装备制造股票A:3月31日起申购费

消息,华商高端装备制造股票A自2026年3月31日起参与东莞农商银行申购及定投费率优惠活动,优...

6 查尔斯·霍斯金森抨击Ripple支持可能扼杀

Cardano创始人Charles Hoskinson指责Ripple支持一项立法,该立法将默认把新代币归类为证券,这将使...

7 Bitmine质押16.7万枚ETH

消息,据链上分析师余烬发推称:以太坊财库公司 Bitmine 在 6 小时内将 16.7 万枚 ETH存入质押,...

8 Qwen 3.6 Plus Preview登陆OpenRouter:100万上下文

消息,据 1M AI News 监测,模型聚合平台 OpenRouter 已上线 Plus Preview 的免费预览版,模型页显示上...

9 每日互动董事长方毅:以“用而不拥”推

消息,每日互动董事长方毅表示,AI落地的关键在于安全、低成本地融入工作流。公司通过云...

10 HyperLiquid (HYPE) 达成黄金交叉,XRP 是否触

HyperLiquid 出现黄金交叉,其 50 日均线 日均线,预示着可能从下跌趋势转向早期上涨趋势。该资...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。