当前位置:主页 > 头条 >

Qwen开源FlashQLA:线性注意力前向提速3倍,TP8场景比FlashInfer快5倍

时间:2026-04-29 23:09:25

  消息,Qwen团队开源的FlashQLA是一套针对GDN的高性能算子库。在H200上实测,前向计算速度比Fla Triton kernel快2-3倍,反向计算速度快2倍在TP8场景中,前向计算速度最高可达5.33倍。提速的核心在于利用GDN门控值的指数衰减特性实现卡内自动上下文并行,从而跳过传统方法中计算校正矩阵的步骤。系统会根据batch size、头数和序列长度自动判断是否启用CP,无需手动配置。

热点推荐
1 亚马逊推动美国政府限制Anthropic模型访问

亚马逊公司提交的研究指出,Fable 5可被诱导输出敏感信息,AWS首席执行官安迪贾西将发现上报...

2 币界早讯 比特币突破64000美元,ETF资金流

6月14日消息: 1. 比特币突破64000美元,ETF资金流入创5月以来新高; 2. 美国SEC提议改革,清理代...

3 Vivek Ramaswamy持有1.9万枚BTC,价值超12亿美

消息,Vivek Ramaswamy解释了企业持有比特币的逻辑,并披露其已持有1.9万枚BTC,按当前价格计算...

4 Bitget调整ESPORTSUSDT永续合约资金费率

消息,Bitget宣布将调整ESPORTSUSDT永续合约的资金费率时间周期和上下限。调整时间为2026年6月...

5 比特币挖矿难度预计下调约9.55%将提升矿

受6月初比特币价格大跌导致网络算力下滑影响,比特币挖矿难度预计下调约9.55%。此次下调将...

6 Bitget暂停WLD

消息,Bitget宣布,由于钱包维护,自2026年6月14日00:38起暂停WLD - Ethereum网络的提现功能,开放日...

7 英伟达Blackwell登顶首个智能体硬件基准:

消息,英伟达Blackwell在智能体硬件基准测试中表现突出,能效超越H200达20倍,力压AMD。评测机...

8 Binance:SpaceX成为第二大交易产品,24小时

消息,Binance宣布,SpaceX已成为其第二大交易产品,过去24小时内,Binance在SpaceX永续合约上的交...

9 Cathie Wood的ARK投资在SpaceX增持4.44亿美元,

消息,Cathie Wood的ARK投资于6月12日增持了约4.44亿美元的SpaceX股份,同时减少了对AMD的投资。根...

10 因在立陶宛空域发现可疑军事无人机

消息,立陶宛国家危机管理中心:因在立陶宛空域发现可疑军事无人机,向维尔纽斯居民发出...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。