当前位置:主页 > 动态 >

谷歌TurboQuant:3bit量化KV缓存无精度损失,推理最高快8倍

时间:2026-03-25 11:01:33

  消息,据 1M AI News 监测,谷歌研究院发布量化压缩算法 TurboQuant,可将大语言模型的 KV 缓存压缩至 3 bit,内存占用缩减至少 6 倍,无需训练或微调,不损失模型精度。4 bit 模式下,在英伟达 H100 GPU 上计算注意力的速度较 32 bit 未量化基线 倍。研究团队在 LongBench、Needle In A Haystack、ZeroSCROLLS 等长上下文基准上用 Gemma 和 Mistral 模型验证,TurboQuant 在所有测试中均达到最优表现。该算法由两个子算法组成:PolarQuant 通过极坐标变换消除传统量化方法的内存开销,QJL 仅用 1 bit 校正残余误差。该研究由谷歌研究院 Amir Zandieh 和副总裁兼 Google Fellow Vahab Mirrokni 主导,与韩国 KAIST 和纽约大学合作完成,将在 ICLR 2026 上发表。谷歌表示该技术的主要应用之一是解决 Gemini 等模型的 KV 缓存瓶颈。

热点推荐
1 代币化国债成为稳定币发行基础设施,总

消息,据Token Terminal数据显示,代币化国债正日益成为稳定币发行方的基础设施产品,当前总市...

2 美国众议院农业委员会主席敦促特朗普提

消息,美国众议院农业委员会主席Glenn GT Thompson与资深民主党成员Angie Craig于周五联名致信特朗...

3 Zed内置Agent打通ChatGPT订阅:逆势免除按量

消息,Zed代码编辑器宣布,其内置AI Agent现已原生接入ChatGPT账号,用户登录后可通过个人的C...

4 100%胜率巨鲸的ETH对手盘:BTC空单减持43

消息,某地址于2026年5月16日减持BTC空单43.15枚,按当前价格计算约合3378023.37美元。该地址持仓...

5 加沙地带48小时内数次袭击致13人死亡

消息,过去48小时内,加沙地带发生数起袭击事件,导致13人死亡,57人受伤。当地时间16日,加...

6 日本金融厅推出加密资产仲介业注册制度

日本金融厅于5月15日面向企业和相关机构在线举行电子支付手段・加密资产服务仲介业注册事...

7 Bitmine大规模增持89,026枚ETH,价值约1.98亿

在以太坊价格跌至约2200美元后,以太坊财库公司Bitmine继续大规模增持ETH。1小时前,89,026枚E...

8 马斯克收购Twitter后投资者翻盘,靠Space

消息,马斯克于2022年以440亿美元收购Twitter,吸引了Larry Ellison、Andreessen Horowitz、Bill Ackman等知...

9 Kraken宣布AVA现已上线交易

消息,Kraken宣布AVA现已可进行交易。用户可通过资金页面添加AVA资产,并确保将代币存入Krak...

10 波兰下议院通过MICA加密法案,ZondaCrypto诈

波兰下议院已批准一项长期延迟的加密资产法案,以使国家规则与欧盟的MICA框架保持一致。立...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。