Mamba架构的原班研发团队发布了第三代开源模型Mamba-3,这款采用Apache 2.0许可的语言模型在语言建模效率上实现了近4%的相对提升,标志着状态空间模型(SSM)对Transformer架构发起的最新挑战。
从训练优先到推理优先
由卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao领衔,Mamba架构自2023年问世以来一直是Transformer的有力竞争者。如果说Mamba-2关注的是打破预训练瓶颈,那么Mamba-3则致力于解决「冷GPU」问题——现代硬件在解码阶段往往处于空闲状态,等待内存传输而非执行计算。
Mamba-3采用推理优先的设计理念,目标是在每一秒GPU运行时间内最大化计算密度,让模型在不增加用户等待时间的前提下进行更深度的「思考」。
三大技术创新
M2.7引入了三项关键技术突破:
指数梯形离散化:采用广义梯形法则,提供二阶精确近似,消除了传统架构中依赖的短因果卷积。
复数值SSM与RoPE技巧:通过将底层状态空间模型视为复值系统,模型能够表示「旋转」动力学,解决了线性模型在状态跟踪任务中长期存在的缺陷。
多输入多输出(MIMO):将算术强度提升4倍,让模型在内存受限的解码阶段利用闲置的GPU计算资源进行更多并行计算。
性能表现
在15亿参数规模下,Mamba-3最先进的MIMO变体在各项基准测试中平均准确率达到57.6%,较Transformer基线提升2.2个百分点——这代表着近4%的相对改进。
更令人印象深刻的是,Mamba-3在保持与上一代相同预测质量的同时,将内部状态大小减半。这意味着企业可以用相同的硬件获得双倍的推理吞吐量。
企业应用前景
对于企业AI部署而言,Mamba-3代表了总拥有成本的战略性转变:
- 在长上下文应用中,有效利用之前闲置的GPU资源
- 为代理工作流提供低延迟生成能力
- 支持与Transformer的混合架构,兼顾效率和精度
目前Mamba-3已在GitHub开源,采用对商业友好的Apache-2.0许可证。研究团队预测,未来企业AI将更多地采用混合架构,将Mamba的高效「记忆」与Transformer的精确「数据库」存储相结合。
发表回复