当前位置:主页 > 快讯 >

腾讯开源网页视觉找茬评测DiffSpot,最强模型漏判六成微小CSS改动

时间:2026-05-29 19:22:05

  消息,腾讯在Hugging Face发布了网页视觉差异评测集DiffSpot,用于测试多模态大模型能否识别网页界面中的细微变化。该数据集包含4400对网页截图,其中3900对存在线档难度。测试结果显示,表现最佳的Gemini 3.1 Pro综合准确率仅为47.2%,对线%,约六成变化被漏掉。困难档任务中,所有模型召回率均低于23%。开源模型Kimi K2.5的综合准确率为42.2%,高于GPT-5.4的38.3%和Claude Opus 4.7的38.9%。此外,DiffSpot还揭示了变化量与模型召回率之间的复杂关系。

热点推荐
1 白宫将与执法机构会谈推动加密清晰法案

消息,白宫已邀请对美国参议院加密市场结构法案语言表示反对的执法组织,于周一举行会议...

2 特朗普确认美伊将在多哈会晤,美股上涨

消息,周一美国股市在特朗普确认美国与伊朗将在多哈会晤后大幅上涨,市值增加约7600亿美元...

3 Chainalysis提出链上追踪标准框架,旨在统

Chainalysis发布方法论提案,为执法机构建立统一的链上资金追踪标准框架,通过本体论定义地址...

4 逢高布空巨鲸:dram空单增持6191枚,当前

消息,逢高布空巨鲸在dram空单上增持6,191枚,约合323,902.80美元,持仓规模达到4,242,499.62美元,...

5 BNY与Circle扩大合作,$USDC成为首个稳定币

BNY宣布与Circle扩大合作关系,使$USDC成为其数字资产托管平台上的首个稳定币。...

6 CZ:投资5亿美元支持马斯克的推特收购

消息,CZ表示,币安投资了5亿美元用于支持马斯克收购推特,称其为言论自由平台。他指出:...

7 微策略公司授权最高12.5亿美元比特币销售

消息,微策略公司宣布授权最高达12.5亿美元的比特币销售计划,以支持其25.5亿美元的美元储备...

8 未知钱包转入1亿枚USDC,价值约1.00亿美元

消息,据Whale Alert监测,100,000,000枚USDC刚刚转入未知钱包。...

9 谷歌云将提供用于科学研究的专业AI模型

消息,谷歌将通过其云服务平台,提供来自软件公司Sandbox AQ的专业人工智能模型,旨在扩大企...

10 CryptoQuant:鲸鱼在Gate平台的持仓份额增至

鲸鱼在Gate平台的持仓份额已增至16%,并在BTC价格跌破6万美元的情况下保持稳定。在过去30天内...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。