当前位置:主页 > 聚焦 >

谷歌Vision Banana:计算机视觉的“GPT3时刻”生图模型打败专用视觉理解模型

时间:2026-04-23 16:27:36

  消息,据动察 Beating 监测,谷歌团队发表论文,提出 Vision Banana,在自家图像生成模型 Nano Banana Pro上做轻量指令微调,将其转化为通用视觉理解模型。核心做法是把所有视觉任务的输出统一参数化为 RGB 图像,让分割、深度估计、表面法线估计等感知任务都通过图像生成来完成,无需为每类任务设计专用架构或训练损失。评测覆盖了图像分割和 3D 几何推断两大类任务。分割方面,语义分割在 Cityscapes 上超过专用分割模型 SAM 3 4.7 个百分点;指代表达分割同样超过 SAM 3 Agent。但在实例分割上仍落后于 SAM 3。3D 方面,度量深度估计在四个标准数据集上平均准确率 0.929,高于专用模型 Depth Anything V3 的 0.918,且完全用合成数据训练,不使用真实深度数据,推理时也不需要相机参数。表面法线估计在三个室内基准上取得最优。微调只是将少量视觉任务数据混入原始图像生成训练数据,模型的图像生成能力基本不受影响:在生成质量评测中与原始 Nano Banana Pro 打平。论文认为图像生成预训练在视觉领域的角色类似于文本生成预训练在语言领域的角色:模型在学会生成图像的过程中,已经习得了理解图像所需的内部表征,指令微调只是将其释放出来。

热点推荐
1 Binance Margin:新推出平仓转换选项

消息,Binance宣布将于2026年6月17日10:00起,逐步推出平仓功能的新转换选项。此功能将通过灰度...

2 知名交易员Loracle增持HYPE多单18050.34枚

消息,知名交易员Loracle增持HYPE多单18,050.34枚,约合2,032,327.24美元。当前持仓规模为10,175,415....

3 CryptoQuant:币安比特币期货交易量突破8

消息,CryptoQuant分析师Darkfost_coc指出,币安的比特币期货交易量已超过800万亿美元。...

4 Circle今日再铸造10亿美元USDC,过去一周共

消息,Circle今日再铸造10亿美元的USDC,过去一周共铸造35亿美元的USDC。...

5 Grok Build推出代理控制面板,单终端多会话

消息,Grok Build推出了代理控制面板,支持单终端多会话调度,旨在解决人工阻塞问题。开发者...

6 以色列军队若不从战争中占领的土地上撤

消息,伊朗外长阿拉格齐:以色列军队若不从战争中占领的土地上撤出,战争结束便无法实现...

7 俄克拉荷马州警告投资者关于BG Wealth和

消息,俄克拉荷马州证券监管机构警告投资者,BG Wealth Sharing Ltd及两个交易平台DSJ Exchange Pty...

8 巨鲸地址在Aster开仓14694枚ETHUSDT多单

消息,据Aster链上浏览器数据,某巨鲸地址在Aster上开仓14,694枚ETHUSDT多单,整体仓位价值达25...

9 Michael Saylor:基于比特币的现代数字资产

消息,吴说获悉,Strategy创始人Michael Saylor最新发文提出基于比特币的现代数字资产堆栈五层架...

10 美国政府问责局建议联邦存款保险公司加

消息,美国政府问责局于6月8日向联邦存款保险公司主席Travis Hill发出信函,建议建立协调机制...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。