华为与湖北移动完成全国运营商首个 AI 推理加速方案现网测试，长序列 Token 吞吐率提升 372%

5 min
1.3k views
3 comments

据介绍，该测试基于华为 OceanStor A800 存储与昇腾 A3 超节点架构，搭载 UCM (Unified Cache Manager，推理记忆数据管理)，在长序列 AI 推理场景下，实现了 Token 吞吐率最高可提升 372% 的突破性成果。

文章称，随着 AI 应用加速向 Agent（智能体）形态演进，长上下文序列（如代码生成、多轮对话）已成为典型场景，但传统算力卡高带宽内存容量有限，严重制约了 KV Cache 的命中率。华为在 2025 年底重磅推出了 UCM 推理记忆数据管理技术，打破高带宽内存和 DRAM 的容量限制，通过外置存储提供 PB 级的 KV Cache，并对 KV Cache 进行全生命周期的分层管理与调度，不仅在单次对话时大幅扩展上下文窗口，还能在多轮对话中复用历史 KV Cache，避免重复计算。

本次测试在湖北移动现网环境中部署 vLLM-Ascend 框架，针对 MiniMax M2.5、GLM-5.1 等主流大模型，模拟了 8K 至 190K 长序列输入场景。测试结论如下：

MiniMax M2.5 模型场景下：启用 UCM 后，首 Token 延迟（TTFT）优化 26%~62%，单 NPU 卡 Token 输出效率（TPS）有大幅提升。从不同序列长度分别来看，64K 的序列长度下 TPS 提升 58%，在 128K 序列环境下，TPS 提升 78%。
GLM-5.1 模型场景下：TTFT 优化幅度达 51%~93%，TPS 提升 56%~372%。其中在 64K 序列长度下，TPS 提升 313%，在 128K 序列环境下，TPS 提升 372%。

华为表示，测试表明，随着上下文长度增加，AI 推理加速方案优势持续放大，有效解决了长序列推理中的 KV Cache 容量瓶颈。

华为与湖北移动完成全国运营商首个 AI 推理加速方案现网测试，长序列 Token 吞吐率提升 372%

足球焦点战深度解析

篮球热门赛事数据解读

Emily Smith

Comments

罗伯特·泰勒

瑞秋·泰勒

围绕捷报比分网，捷报比分持续打磨更优质的服务。

About Us

在深入专业的赛事分析资讯方面，捷报比分提供贴心周到的支持。

篮球联赛数据统计

世界杯比分竞猜指南

赛事前瞻与专家观点

Topics

捷报比分以覆盖全球热门体育项目为核心，带来高效便捷的体验。

艾米丽·史密斯

罗伯特·泰勒

杰西卡·布朗

想了解更多便捷高效的信息查询体验相关内容，尽在捷报比分。

捷报比分专注世界杯比分竞猜，为用户提供专业可靠的体验。

足球赛事深度分析与前瞻

NBA竞猜技巧分享

Lifestyle

掌握体育资讯，洞悉赛事动态

实时数据，助力精准竞猜

围绕捷报比分网，捷报比分持续打磨更优质的服务。

精选捷报体育平台内容，捷报比分与你一同发现更多精彩。

华为与湖北移动完成全国运营商首个 AI 推理加速方案现网测试，长序列 Token 吞吐率提升 372%

足球焦点战深度解析

篮球热门赛事数据解读

Emily Smith

Comments

罗伯特·泰勒

瑞秋·泰勒

围绕捷报比分网，捷报比分持续打磨更优质的服务。

About Us

在深入专业的赛事分析资讯方面，捷报比分提供贴心周到的支持。

篮球联赛数据统计

世界杯比分竞猜指南

赛事前瞻与专家观点

Topics

捷报比分以覆盖全球热门体育项目为核心，带来高效便捷的体验。

艾米丽·史密斯

罗伯特·泰勒

杰西卡·布朗

想了解更多便捷高效的信息查询体验相关内容，尽在捷报比分。

足球赛事深度分析与前瞻

NBA竞猜技巧分享

掌握体育资讯，洞悉赛事动态

实时数据，助力精准竞猜