Mamba 3开源发布：推理优先架构首次超越Transformer，语言建模能力提升近4%

2026年3月，Mamba架构的研究团队发布了最新版本Mamba-3，这是一款完全开源的语言模型，采用Apache 2.0许可证。最令人瞩目的是，这款”推理优先”架构在多项基准测试中首次超越了行业标准的Transformer，语言建模能力提升近4%。

从训练效率到推理优先的范式转变

Mamba是一种状态空间模型（SSM），与需要不断重新检查已见内容的Transformer不同，SSM维护一个紧凑的、不断变化的内部状态——本质上是数据的”数字快照”。当新信息流入时，模型只需更新这个快照，而不是从头重新读取所有内容。

研究团队负责人、卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao指出，Mamba-2专注于打破预训练瓶颈，而Mamba-3旨在解决”冷GPU”问题：在现代硬件上，推理阶段GPU经常处于空闲状态，等待内存传输而非执行计算。

1. 指数梯形离散化：Mamba-3引入了广义梯形法则，提供二阶精度的近似，消除了循环架构中长期存在的短因果卷积需求。

2. 复值SSM与”RoPE技巧”：通过将底层SSM视为复值系统，Mamba-3能够表示”旋转”动态，解决了线性模型长期无法处理的简单状态跟踪任务，如判断比特序列的奇偶性。

3. MIMO架构：从单输入单输出（SISO）转向多输入多输出（MIMO），Mamba-3增加了模型的”算术强度”——FLOPs与内存流量的比值。这使模型能够在内存受限的解码阶段执行更多计算，利用GPU空闲算力”免费”增强模型能力。

在15亿参数规模下，Mamba-3最先进的MIMO变体在各项基准测试中平均准确率达到57.6%，较Transformer基线提升2.2个百分点。这看似微小的数字实际上代表了近4%的相对语言建模能力提升。

更令人印象深刻的是，Mamba-3可以使用仅一半的内部”状态大小”达到与前代相同的预测质量，在保持同等智能水平的同时大幅降低内存占用。

对于AI构建者来说，Mamba-3的突破具有重要意义：常量内存需求和线性计算扩展意味着在长上下文场景中具有显著的成本优势。随着AI代理和多轮对话应用的兴起，这种高效架构可能成为Transformer的有力替代选择。

Mamba-3的开源发布意味着企业可以立即将其用于商业目的，无需支付API费用。对于正在评估AI基础设施的团队，这款推理优先的架构值得深入测试。