Mamba (深度学习架构)

Mamba是一种用于序列建模任务的深度学习架构。它是由卡内基梅隆大学和普林斯顿大学的研究人员开发的，用于解决Transformer架构的一些局限性，尤其是在处理长序列方面。它基于结构化状态空间序列（S4）模型。 ^[1] ^[2] ^[3]

架构

为了能够处理长数据序列，Mamba 采用了结构化状态空间序列模型 (S4)。 ^[1] S4 可以通过结合连续时间、循环和卷积模型有效且高效地对长序列进行建模。这使得它能够处理不规则采样的数据和长上下文，并在训练和推理期间保持计算效率。 ^[4]

Mamba对S4模型在时序运算处理方面实现了突破性改进，其创新性的动态参数选择机制能够根据输入特征自适应调整结构化状态空间模型（SSM）的参数配置。 ^[5] ^[1]这种机制使模型具备序列信息的选择性注意力能力，通过动态筛选关键特征实现对冗余数据的智能过滤。相较于传统时不变系统框架，Mamba采用的时变架构不仅提升了计算效率，更优化了复杂序列建模的能量消耗比，实现了模型性能的阶跃式提升。 ^[1] ^[6]

Mamba 采用一种硬件感知算法。该实现利用GPU 去进行内核融合、并行扫描和重新计算来避免在内存密集型层中实现扩展状态^[1]，从而提高性能和内存使用率。与Transformer相比，该方法在处理长序列时效率明显更高。 ^[1] ^[6]

此外，Mamba 通过将 SSM 设计与MLP块相集成来简化其架构，从而形成相同质量但精简的结构，进一步增强了该模型进行跨文本、音频和基因组等数据类型进行通用序列建模的能力，同时保持了训练和推理的高效率。 ^[1]

关键组件

选择性状态空间 (SSM)： SSM 是Mamba 的核心,它是根据当前输入选择性处理信息的循环模型。这使得能够专注于相关信息，丢弃不相关的数据。 ^[1]
简化架构： Mamba 用统一的 SSM 块取代了 Transformers 的复杂注意力和 MLP 块。目的是降低计算复杂度并提高推理速度。 ^[1]
硬件感知并行： Mamba 采用循环模式，并采用专为提高硬件效率而设计的并行算法，从而进一步提升其性能。 ^[1]

与 Transformer 的比较
特征	Transfromer	Mamba
架构	基于注意力	基于SSM
复杂	高	低
推理时间复杂度	`O(n)`	`O(1)`
训练时间复杂度	`O(n ² )`	`O(n)`

变种模型

无token的语言模型：MambaByte

由于要对每个字节大小的token进行操作，Transformer 的扩展性较差，因为每个token都必须“关注”其他每个token，从而导致O(n ² )的计算复杂度，因此，Transformer 选择使用子词分词器来减少文本中的token数量，然而，这会导致词汇表和词嵌入非常大。

这项研究探讨了一种新颖的语言建模方法，MambaByte，它不同于标准的基于token的方法。与依赖于将文本分解为离散单元的传统模型不同，MambaByte 直接处理原始字节序列。这消除了token化的需要，可能带来以下几个优点： ^[7]

语言独立性：tokenization通常依赖于特定于语言的规则和词汇，从而限制了其在不同语言中的适用性。 MambaByte 的字节级表示使其能够处理不同的语言，而无需特定于语言的适应。
消除子词分词器带来的偏见：常见子词被过度代表，而罕见词或新词被低估或被分成意义较小的单元。这会影响模型的理解和生成能力，特别是对于形态丰富的语言或在训练数据中没有很好表现的token。
预处理的简化：通过消除对复杂token和词汇管理的需求，简化了预处理流程，减少了预处理步骤和潜在错误。

子词分词器在 LLM 中引入了许多奇怪的问题，例如 LLM 无法拼写单词、反转某些单词、处理罕见token，而这些在字节级token化中是不存在的。 ^[8]

MOE与Mamba模型的结合 (Mamba Mixture of Experts，MOE)

MoE Mamba 代表了混合专家 (MoE) 技术与 Mamba 架构的开创性结合，增强了状态空间模型 (SSM) 在语言建模中的效率和可扩展性。该模型充分利用了 MoE 和 SSM 的优势，显著提高了训练效率——所需的训练时间比其前身 Mamba 减少了 2.2 倍，同时保持了与其相匹配的性能。 MoE Mamba 通过将选择性状态空间建模与基于混合专家技术的处理相结合，展示了更高的效率和性能，为未来扩展 SSM 来进行数百亿级别参数的模型研究提供了有潜力的途径。该模型的设计涉及互相交替的 Mamba 层和 MoE 层，使其能够有效地整合所有的序列上下文，并为每个token应用最相关的专家模型。 ^[9] ^[10]

Mamba在视觉上的使用（Vision Mamba，Vim）

Vision Mamba (Vim) 将SSM 用于视觉数据处理。它采用双向 Mamba 块进行视觉序列编码并于此减少了视觉任务中通常与self-attention机制相关的计算需求。经过ImageNet分类数据集、COCO 对象检测和 ADE20k 语义分割的测试，Vim 展示了更好的性能，并且能够以较低的计算资源处理高分辨率图像。这使得 Vim 成为未来视觉表征学习进步的可扩展模型。 ^[11]

Jamba

Jamba 是一种将Transformer 和 Mamba SSM 架构相结合的新型架构，由AI21 Labs开发，拥有 520 亿个参数，是迄今为止创建的参数最多的 Mamba 变种。它有一个包含 256k token的上下文窗口。 ^[12]

影响和未来方向

Mamba代表了大型语言模型架构的重大潜在转变，即社会可能需要更快、更高效、可扩展的模型^{[來源請求]} 。

应用包括语言翻译、内容生成、长篇文本分析、音频和语音处理^{[來源請求]} 。

参见

注释

参考

^ ^1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 Gu, Albert; Dao, Tri. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. 2023. arXiv:2312.00752  [cs.LG].
^ Chowdhury, Hasan. The tech powering ChatGPT won't make AI as smart as humans. Others might.. Business Insider. [13 January 2024].
^ Pandey, Mohit. Mamba is Here to Mark the End of Transformers. Analytics India Magazine. 6 December 2023 [13 January 2024].
^ Gu, Albert; Goel, Karan; Re, Christopher. Efficiently Modeling Long Sequences with Structured State Spaces. ICLR. 6 October 2021 [13 January 2024]. arXiv:2111.00396  （英语）.
^ Gu, Albert; Johnson, Isys; Goel, Karan; Saab, Khaled Kamal; Dao, Tri; Rudra, A.; R'e, Christopher. Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. NeurIPS. 26 October 2021. S2CID 239998472.
^ ^6.0 ^6.1 Tickoo, Aneesh. Researchers from CMU and Princeton Unveil Mamba: A Breakthrough SSM Architecture Exceeding Transformer Efficiency for Multimodal Deep Learning Applications. MarkTechPost. 10 December 2023 [13 January 2024].
^ Wang, Junxiong; Gangavarapu, Tushaar; Yan, Jing Nathan; Rush, Alexander M., MambaByte: Token-free Selective State Space Model, 2024-01-24, arXiv:2401.13660 
^ Let's build the GPT Tokenizer, 20 February 2024 [2024-02-23] （英语）
^ Pióro, Maciej; Ciebiera, Kamil; Król, Krystian; Ludziejewski, Jan; Jaszczur, Sebastian, MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts, 2024-01-08, arXiv:2401.04081 
^ Nikhil. This AI Paper Proposes MoE-Mamba: Revolutionizing Machine Learning with Advanced State Space Models and Mixture of Experts MoEs Outperforming both Mamba and Transformer-MoE Individually. MarkTechPost. 2024-01-13 [2024-02-23] （美国英语）.
^ Zhu, Lianghui; Liao, Bencheng; Zhang, Qian; Wang, Xinlong; Liu, Wenyu; Wang, Xinggang, Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model, 2024-02-10, arXiv:2401.09417 
^ Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model. www.ai21.com. [2024-03-29] （英语）.

[mamba-1] 1.00 ^1.01 ^1.02 ^1.03 ^1.04 ^1.05 ^1.06 ^1.07 ^1.08 ^1.09 Gu, Albert; Dao, Tri. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. 2023. arXiv:2312.00752  [cs.LG].

[2] Chowdhury, Hasan. The tech powering ChatGPT won't make AI as smart as humans. Others might.. Business Insider. [13 January 2024].

[3] Pandey, Mohit. Mamba is Here to Mark the End of Transformers. Analytics India Magazine. 6 December 2023 [13 January 2024].

[4] Gu, Albert; Goel, Karan; Re, Christopher. Efficiently Modeling Long Sequences with Structured State Spaces. ICLR. 6 October 2021 [13 January 2024]. arXiv:2111.00396  （英语）.

[5] Gu, Albert; Johnson, Isys; Goel, Karan; Saab, Khaled Kamal; Dao, Tri; Rudra, A.; R'e, Christopher. Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. NeurIPS. 26 October 2021. S2CID 239998472.

[mark-6] 6.0 ^6.1 Tickoo, Aneesh. Researchers from CMU and Princeton Unveil Mamba: A Breakthrough SSM Architecture Exceeding Transformer Efficiency for Multimodal Deep Learning Applications. MarkTechPost. 10 December 2023 [13 January 2024].

[7] Wang, Junxiong; Gangavarapu, Tushaar; Yan, Jing Nathan; Rush, Alexander M., MambaByte: Token-free Selective State Space Model, 2024-01-24, arXiv:2401.13660 

[:1-8] Let's build the GPT Tokenizer, 20 February 2024 [2024-02-23] （英语）

[9] Pióro, Maciej; Ciebiera, Kamil; Król, Krystian; Ludziejewski, Jan; Jaszczur, Sebastian, MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts, 2024-01-08, arXiv:2401.04081 

[:2-10] Nikhil. This AI Paper Proposes MoE-Mamba: Revolutionizing Machine Learning with Advanced State Space Models and Mixture of Experts MoEs Outperforming both Mamba and Transformer-MoE Individually. MarkTechPost. 2024-01-13 [2024-02-23] （美国英语）.

[11] Zhu, Lianghui; Liao, Bencheng; Zhang, Qian; Wang, Xinlong; Liu, Wenyu; Wang, Xinggang, Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model, 2024-02-10, arXiv:2401.09417 

[12] Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model. www.ai21.com. [2024-03-29] （英语）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]