华人学生立大功,新王Mamba-3直击Transformer死穴,推理效率碾压7倍

Transformer「杀手」架构迎重磅升级! 就在今天,Mamba架构的「原班人马」正式发布了最新一代开源架构——Mamba-3。 论文地址:https://arxiv.org/pdf/2603.15569 与Mamba-2相比,Mamba-3对核心SSM做了三大改动: 改进了离散化过程,使其能够模拟卷积; 将状态转移引入复数域,以优化状态追踪; 采用MIMO架构提升推理利用率,在保持解码速度的同时增强模型表现。 结果证明,仅用一半的内部状态大小,Mamba-3实力便与Mamba-2相当。 在15亿参数规模下,Mamba-3 MIMO版本的平均准确率达到57.6%,比Transformer高出4%。 在长序列任务上,Mamba-3的端到端延迟仅为Transformer的七分之一。 剑指Transformer死穴 Mamba-3逆天改命 2017年,Transformer架构横空出世,成为当今LLM的基石。 然而,它是一个不折不扣的「算力黑洞」,随着对话长度增加,计算需求呈平方级增长,内存占用...

查看原文 →