华人学生立大功，新王Mamba-3直击Transformer死穴，推理效率碾压7倍

作者 · 新智元来源 · 36kr浏览 · 1次2026-03-19

Transformer「杀手」架构迎重磅升级！就在今天，Mamba架构的「原班人马」正式发布了最新一代开源架构——Mamba-3。论文地址：https://arxiv.org/pdf/2603.15569 与Mamba-2相比，Mamba-3对核心SSM做了三大改动：改进了离散化过程，使其能够模拟卷积；将状态转移引入复数域，以优化状态追踪；采用MIMO架构提升推理利用率，在保持解码速度的同时增强模型表现。结果证明，仅用一半的内部状态大小，Mamba-3实力便与Mamba-2相当。在15亿参数规模下，Mamba-3 MIMO版本的平均准确率达到57.6%，比Transformer高出4%。在长序列任务上，Mamba-3的端到端延迟仅为Transformer的七分之一。剑指Transformer死穴 Mamba-3逆天改命 2017年，Transformer架构横空出世，成为当今LLM的基石。然而，它是一个不折不扣的「算力黑洞」，随着对话长度增加，计算需求呈平方级增长，内存占用...