即将开源！华为发布AI推理黑科技，已在中国银联落地

时间：2025-08-13 12:49:35

　　8月12日，华为发布AI推理创新技术——UCM推理记忆数据管理器，旨在推动AI推理体验升级，提升推理性价比，加速AI商业正循环。同时，华为携手中国银联率先在金融典型场景开展UCM技术试点应用，并联合发布智慧金融AI推理加速方案应用成果。

　　UCM推理记忆数据管理器，包括对接不同引擎与算力的推理引擎插件、支持多级KV Cache管理及加速算法的功能库、高性能KV Cache存取适配器三大组件，通过推理框架、算力、存储三层协同，实现AI推理“更优体验、更低成本”。

　　AI推理：既不够快，也不够便宜

　　从行业视角观察，大模型的重心正在从训练转向推理。相关行业数据显示，当前推理算力需求已超过训练。GPT-5开放首周20 亿次/分钟，70%的请求为复杂任务推理；而国内火山引擎的日均token调用量已达16.4万亿，其中70%以上来自线上推理而非训练。

　　与此同时，大模型行业总会频繁出现一个现象，一旦出现了一种火热的新模型，该服务商的服务在一段时间会处于不太稳定的状态，这是因为大量用户访问需求之下，服务商需要通过计算、存储等优化措施，降低它的推理成本，并且降本的同时不能影响用户体验。

　　比如GPT-5发布就引起不少用户诟病，通过智能路由降低后台的算力成本，但是路由规划的效果出现了偏差，用户使用时频繁出现了“降智”效果，海内外用户吐槽非常多。

　　此外，由于在基础设施投资领域的差距，中国互联网在AI基础设施上的投资仅是美国的十分之一，叠加如算力卡阉割、算力卡涨价、HBM涨价等一系列因素，中国AI推理发展难上加难。

　　中国互联网大模型首Token时延普遍慢于海外互联网头部的首Token时延，每秒或者一定时间内推理的Token数也远小于海外头部互联网厂商。

　　国外主流大模型输出速度为200 tokens/s区间，而中国普遍小于60 tokens/s，最大差距达到10倍。在上下文窗口上，海外模型普遍支持100万级Token，而国内头部仅50万，且在长文本分析中，国内模型遗漏关键信息的概率超50%。

　　行业通常用增加显存、内存的方式，提升AI推理的效率和性能，但是很多业界方案只关注基础设施层，即分层流动/开启管理，在整个算法加速库上缺少系列场景化加速算法、套件以及开放第三方库等举措，即缺少一套“推理框架、算力、存储三层协同”的方案。

　　以存代算，首token延迟降低90%

　　华为公司副总裁、数据存储产品线总裁周跃峰解释，以人的思考和大模型作对比，思考能力和记忆能力强相关，AI推理系统也一样的。整个AI推理系统当中，记忆功能往往有三部分，高性能的缓存，中间是内存，这两部分基本上在智算服务器当中。第三部分是过去没有得到利用的专业共享存储。

　　UCM主要分为三部分：顶层和业界流行的推理框架对接，称为“连接器”，它会连接业界普遍流行的推理引擎框架，包括华为的MindiE、SGLang等等，与目前推理框架进行协同。

　　中间部分是加速程序，对于缓存记忆数据进行分级缓存管理的算法程序，运行在智算服务器当中。

　　另外一部分是和专业共享存储相结合的协同器，这个协同器可以提升专业存储直通的效率和降低时延，可以让三级存储协同起来。

　　通俗解释，首先，华为通过UCM，将历史已处理过的结果、历史对话、语料库、RAG知识库的数据以KV Cache的形式缓存至第三层的高性能外置共享存储上，遇到已推理过、已缓存过的信息就不需要重新推理了，而是只用从外置存储中查询并调用即可，实现大幅推理加速，将首token延迟降低90%、也节省了token by token的时间。

　　在过去，这些数据量通常较大、达到PB级，仅依赖HBM和DRAM这样几十GB、最多TB级的小容量是存不下来的，导致推理频繁出现“失忆”，需要GPU反复计算、造成卡顿迟缓。而且过去HBM又贵又小、且与GPU卡强绑定，靠堆卡的形式普通企业根本买不起，只有被迫接受“重复造轮子”的低效方式。

　　在此基础上，大模型能积累越来越多的历史对话、历史内容，就变相地增加了知识丰富度和广度，让需要全新计算的比例越来越少，简化计算复杂度，大模型也就越来越快、越来越聪明，如此解决“推得慢”的问题。

　　其次，当推理任务越来越长、越来越复杂，长序列推理会让大模型经常出现“只有七秒钟的记忆”。比如，在分析一篇万字长文时，由于HBM容量有限，仅缓存到前2000字就装不下了，这样就容易出现推理失败、关键关联信息丢失的情况。

　　华为UCM通过一系列智能的算法，对长序列内容进行切片，并把已处理的切片卸载到更大的DRAM或外置共享存储，这就变相扩充了HBM的容量，让上下文窗口扩大10倍、满足长序列推理需求。

　　此外，华为采用了注意力稀疏技术及相关技术，可以识别这些大量KV Cache数据的重要程度、相关性和热度，将重要的/不重要的、相关的/不相关的数据分层分级地进行缓存并流动。在下一次推理过程中，只需要把关键的、合适的向量提取出来即可，这也就降低了向量推理过程中向量的数量，提升整体吞吐量，如此解决“推不动”的问题。

　　在无需过多投资的情况下，UCM让长序列场景下TPS提升2-22倍，相当于降低每Token推理成本，企业可以继续维持算力不变，仅花销小部分外置存储的投资、让缓存原地“升级”，从而改善推理效率、摊薄每token推理成本，解决“推得贵”的问题。

　　已在中国银联落地，9月将开源

　　金融行业是拥抱大模型较为快速的行业之一，对于新技术的需求也十分迫切。金融AI规模化落地的核心瓶颈在于高成本、高延迟、高依赖，金融级应用需微秒级响应，而卡顿、延迟直接影响风控与交易安全，因此AI推理的效果至关重要。

　　中国银联智能化创新中心副总经理杨燕明表示，通过分析来自客服、工单等数据发现以下痛点：金融产品、金融服务的种类多、场景复杂，在问题进行分类时相当困难；用户反馈内容繁杂的、冗长，导致难以分析原因。

　　中国银联尝试使用大模型技术解决这些问题，通常的解决方案是，将问题进行标签化，构建起一系列的问题标签，结合客户对话内容进行切片，喂给大语言模型进行处理，希望通过大语言模型帮助解决分类问题。

　　但随之发现了新的技术挑战，首先它是一个多次推理，推理时间非常长，一通电话或者一个服务，需要长达15分钟的分析时间；第二因为标签数量太多，分析准确性非常低，无法应用生产。

　　中国银联联合华为开展了推理性能的技术攻关，与华为存储团队、算力先遣队、业务专家一起组合了联合创新小组，经过一系列尝试，提出了引入存储的KV Cache的加速方案，满足实际的业务需求。

　　采用KV Cache的方案，通使整个运算方式从推理运算，变为查找运算和推理运算相结合的方式，避免了大量重复推理，加速整个推理过程，实际效果标签分类的推理时间从原来的600秒，下降到10秒内，提升了50倍以上，标签分类准确率从不到10%上升到80%，整个效果达到生产预期。

　　华为也公布了UCM开源计划。UCM通过开放统一的南北向接口，可适配多类型推理引擎框架、算力及存储系统。今年9月，UCM将正式开源，后续逐步贡献给业界主流推理引擎社区。

　　华为相关专家表示，IT行业产品先行，标准随后。华为希望通过UCM这样一套开源的方式，能够让更多的厂商、业界存储伙伴加入，能够在推理加速推动标准落地，这是一个共创标准的过程，共同在开源社区孵化成熟，真正形成标准，才能真正解决今天看到的推理体验和推理成本的问题

下一篇：暴涨14倍！2元“降温神器”火了，有商家半年卖5000万

热点推荐

1 LAB热度上升，24h成交量放大至近7日平均水

消息，据a早期发行in监测，LAB过去24小时成交量放大至近7日平均水平的3.9倍，价格累计下跌5...

2 阿里巴巴新AI模型称仅次于Anthropic的Fabl

消息，阿里巴巴宣布其新AI模型Qwen3.8 Max的参数量达到2.4万亿，声称在领先的前沿AI模型中仅次...

3 Solana网络单日收入重回区块链榜首，为近

消息，据Solanafloor数据，Solana在7月18日的网络收入位居所有区块链第一，这是近五个月以来的首...

4 Nouriel Roubini：AI可能迫使政府采用普遍基

消息，Nouriel Roubini在接受Bloomberg TV采访时警告，人工智能的快速发展可能迫使各国政府选择普...

5 A股三大股指走低，深证成指跌2%

7月20日，A股三大股指走低，深证成指跌2%，创业板指跌1.34%，沪指跌0.51%。...

6 MetaMask聘用朝鲜黑客，未造成实质损失

消息，MetaMask聘请了与朝鲜有关的黑客作为开发者，该黑客GitHub账号imyugioh自2025年9月起已在L...

7 BTC、ETH、SOL和XRP ETF上周净流入情况

消息，上周比特币、以太坊、索拉纳和瑞波币现货ETF均出现净流入。其中，比特币净流入7567万...

8 国信证券吴信坤：阶段性买点或已出现

消息，国信证券策略首席分析师吴信坤发布最新研究报告表示，截至7月17日，全部A股PE为21.8倍...

9 Binance停止支持Moonriver和Moonbeam主网

消息，Binance宣布停止支持Moonriver和Moonbeam主网，并开放上述代币通过Base网络进行充值和提现。...

10 SpaceX定于7月23日进行Starship第13次飞行测试

消息，SpaceX计划于7月23日进行Starship的第13次飞行测试，此前在7月16日的发射中因发动机点火故...