当前位置:主页 > 头条 >

即将开源!华为发布AI推理黑科技,已在中国银联落地

时间:2025-08-13 12:49:35

  
 

  8月12日,华为发布AI推理创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时,华为携手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。

  UCM推理记忆数据管理器,包括对接不同引擎与算力的推理引擎插件、支持多级KV Cache管理及加速算法的功能库、高性能KV Cache存取适配器三大组件,通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。

  AI推理:既不够快,也不够便宜

  从行业视角观察,大模型的重心正在从训练转向推理。相关行业数据显示,当前推理算力需求已超过训练。GPT-5开放首周20 亿次/分钟,70%的请求为复杂任务推理;而国内火山引擎的日均token调用量已达16.4万亿,其中70%以上来自线上推理而非训练。

  与此同时,大模型行业总会频繁出现一个现象,一旦出现了一种火热的新模型,该服务商的服务在一段时间会处于不太稳定的状态,这是因为大量用户访问需求之下,服务商需要通过计算、存储等优化措施,降低它的推理成本,并且降本的同时不能影响用户体验。

  比如GPT-5发布就引起不少用户诟病,通过智能路由降低后台的算力成本,但是路由规划的效果出现了偏差,用户使用时频繁出现了“降智”效果,海内外用户吐槽非常多。

  此外,由于在基础设施投资领域的差距,中国互联网在AI基础设施上的投资仅是美国的十分之一,叠加如算力卡阉割、算力卡涨价、HBM涨价等一系列因素,中国AI推理发展难上加难。

  中国互联网大模型首Token时延普遍慢于海外互联网头部的首Token时延,每秒或者一定时间内推理的Token数也远小于海外头部互联网厂商。

  国外主流大模型输出速度为200 tokens/s区间,而中国普遍小于60 tokens/s,最大差距达到10倍。在上下文窗口上,海外模型普遍支持100万级Token,而国内头部仅50万,且在长文本分析中,国内模型遗漏关键信息的概率超50%。

  行业通常用增加显存、内存的方式,提升AI推理的效率和性能,但是很多业界方案只关注基础设施层,即分层流动/开启管理,在整个算法加速库上缺少系列场景化加速算法、套件以及开放第三方库等举措,即缺少一套“推理框架、算力、存储三层协同”的方案。

  以存代算,首token延迟降低90%

  华为公司副总裁、数据存储产品线总裁周跃峰解释,以人的思考和大模型作对比,思考能力和记忆能力强相关,AI推理系统也一样的。整个AI推理系统当中,记忆功能往往有三部分,高性能的缓存,中间是内存,这两部分基本上在智算服务器当中。第三部分是过去没有得到利用的专业共享存储。

  UCM主要分为三部分:顶层和业界流行的推理框架对接,称为“连接器”,它会连接业界普遍流行的推理引擎框架,包括华为的MindiE、SGLang等等,与目前推理框架进行协同。

  中间部分是加速程序,对于缓存记忆数据进行分级缓存管理的算法程序,运行在智算服务器当中。

  另外一部分是和专业共享存储相结合的协同器,这个协同器可以提升专业存储直通的效率和降低时延,可以让三级存储协同起来。

  
 

  通俗解释,首先,华为通过UCM,将历史已处理过的结果、历史对话、语料库、RAG知识库的数据以KV Cache的形式缓存至第三层的高性能外置共享存储上,遇到已推理过、已缓存过的信息就不需要重新推理了,而是只用从外置存储中查询并调用即可,实现大幅推理加速,将首token延迟降低90%、也节省了token by token的时间。

  在过去,这些数据量通常较大、达到PB级,仅依赖HBM和DRAM这样几十GB、最多TB级的小容量是存不下来的,导致推理频繁出现“失忆”,需要GPU反复计算、造成卡顿迟缓。而且过去HBM又贵又小、且与GPU卡强绑定,靠堆卡的形式普通企业根本买不起,只有被迫接受“重复造轮子”的低效方式。

  在此基础上,大模型能积累越来越多的历史对话、历史内容,就变相地增加了知识丰富度和广度,让需要全新计算的比例越来越少,简化计算复杂度,大模型也就越来越快、越来越聪明,如此解决“推得慢”的问题。

  其次,当推理任务越来越长、越来越复杂,长序列推理会让大模型经常出现“只有七秒钟的记忆”。比如,在分析一篇万字长文时,由于HBM容量有限,仅缓存到前2000字就装不下了,这样就容易出现推理失败、关键关联信息丢失的情况。

  华为UCM通过一系列智能的算法,对长序列内容进行切片,并把已处理的切片卸载到更大的DRAM或外置共享存储,这就变相扩充了HBM的容量,让上下文窗口扩大10倍、满足长序列推理需求。

  此外,华为采用了注意力稀疏技术及相关技术,可以识别这些大量KV Cache数据的重要程度、相关性和热度,将重要的/不重要的、相关的/不相关的数据分层分级地进行缓存并流动。在下一次推理过程中,只需要把关键的、合适的向量提取出来即可,这也就降低了向量推理过程中向量的数量,提升整体吞吐量,如此解决“推不动”的问题。

  在无需过多投资的情况下,UCM让长序列场景下TPS提升2-22倍,相当于降低每Token推理成本,企业可以继续维持算力不变,仅花销小部分外置存储的投资、让缓存原地“升级”,从而改善推理效率、摊薄每token推理成本,解决“推得贵”的问题。

  已在中国银联落地,9月将开源

  金融行业是拥抱大模型较为快速的行业之一,对于新技术的需求也十分迫切。金融AI规模化落地的核心瓶颈在于高成本、高延迟、高依赖,金融级应用需微秒级响应,而卡顿、延迟直接影响风控与交易安全,因此AI推理的效果至关重要。

  中国银联智能化创新中心副总经理杨燕明表示,通过分析来自客服、工单等数据发现以下痛点:金融产品、金融服务的种类多、场景复杂,在问题进行分类时相当困难;用户反馈内容繁杂的、冗长,导致难以分析原因。

  中国银联尝试使用大模型技术解决这些问题,通常的解决方案是,将问题进行标签化,构建起一系列的问题标签,结合客户对话内容进行切片,喂给大语言模型进行处理,希望通过大语言模型帮助解决分类问题。

  但随之发现了新的技术挑战,首先它是一个多次推理,推理时间非常长,一通电话或者一个服务,需要长达15分钟的分析时间;第二因为标签数量太多,分析准确性非常低,无法应用生产。

  中国银联联合华为开展了推理性能的技术攻关,与华为存储团队、算力先遣队、业务专家一起组合了联合创新小组,经过一系列尝试,提出了引入存储的KV Cache的加速方案,满足实际的业务需求。

  采用KV Cache的方案,通使整个运算方式从推理运算,变为查找运算和推理运算相结合的方式,避免了大量重复推理,加速整个推理过程,实际效果标签分类的推理时间从原来的600秒,下降到10秒内,提升了50倍以上,标签分类准确率从不到10%上升到80%,整个效果达到生产预期。

  华为也公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年9月,UCM将正式开源,后续逐步贡献给业界主流推理引擎社区。

  华为相关专家表示,IT行业产品先行,标准随后。华为希望通过UCM这样一套开源的方式,能够让更多的厂商、业界存储伙伴加入,能够在推理加速推动标准落地,这是一个共创标准的过程,共同在开源社区孵化成熟,真正形成标准,才能真正解决今天看到的推理体验和推理成本的问题

热点推荐
1 麻吉黄立成:ETH多单减持1300枚,约248万美

消息,麻吉黄立成在HyperLiquid平台上减持ETH多单1,300枚,约合2,482,360美元。当前持仓规模为4,4...

2 Bitget现已支持英伟达、美光等15只股票代

消息,Bitget宣布现已在统一账户及U本位合约联合保证金模式中,新增15只美股代币作为保证金...

3 以军称对黎南部真主党设施的打击还在继

消息,当地时间4日,以色列国防军阿拉伯语发言人阿德拉伊发表声明称,目前黎巴嫩南部的战...

4 Charles Hoskinson:预计2026年更多Cardano项目将

消息,Charles Hoskinson警告称,预计到2026年下半年,更多Cardano项目可能会关闭,因为资金枯竭和...

5 以色列对黎巴嫩南部发动的袭击已造成一

消息,据黎巴嫩国家新闻通讯社NNA:以色列对黎巴嫩南部发动的袭击已造成一名医护人员死亡...

6 慢雾:ironworm恶意软件通过npm包攻击web3生

消息,慢雾监测发现新型rust供应链恶意软件ironworm正利用恶意npm包攻击开发者环境和web3生态。...

7 以色列对黎巴嫩发动了袭击

消息,据黎巴嫩国家媒体报道称,以色列对黎巴嫩发动了袭击,此前双方同意有条件停火。...

8 Gate股票衍生品专区将上线NOW、CRM等8个永

消息,Gate股票衍生品专区将于6月4日14:00上线NOW、CRM、ONDS、LUNR、RDW、URNM、XLE、ADBE等8个永续合...

9 BTC OG内幕巨鲸:ZEC空单浮盈收窄至117万

消息,某BTC OG巨鲸的ZEC空单浮盈已从320万美元收窄至117万美元,当前持仓规模约3482万美元,清...

10 黄立成加仓ETH多单至4000枚,总价值约72

消息,据HyperInsight监测,「麻吉大哥」黄立成在过去1小时内加仓25倍ETH多单,规模翻倍至4000枚...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。