Mamba est une architecture d'apprentissage profond introduite en décembre 2023 par deux chercheurs de Carnegie Mellon et de Princeton, Albert Gu et Tri Dao[1]
Mamba s'est rapidement imposé en 2024 comme la principale alternative à l'architecture Transformeur pour le traitement automatique des langues (TAL) et pour les grands modèles de langage comme GPT-3 ou Llama.
Mamba appartient à une famille élargie de modèles à espace d'états structurés (Structured State Space Models, SSM), une catégorie de réseaux neuronaux séquentiels inspirée des systèmes dynamiques linéaires[1]. Contrairement aux Transformers, Mamba remplace le mécanisme d'attention et les couches de perceptrons multicouches par un bloc SSM unifié, réduisant la complexité computationnelle de à pour la génération de séquences[1]. Cette approche repose sur une sélectivité dynamique : le modèle adapte ses paramètres (matrices , , et le pas discret ) en fonction des données d'entrée, filtrant les informations non pertinentes tout en conservant les contextes critiques[2].
À la différence des SSM traditionnels ou des réseaux de neurones récurrents (RNN), Mamba introduit une dépendance aux données (data-dependent), combinant la flexibilité des Transformers avec l'efficacité des modèles récurrents[1]. Par exemple, il peut ignorer les mots vides (stopwords) grâce à des matrices optimisées via des techniques comme HiPPO (High-order Polynomial Projection Operators), assurant une mémoire à long terme des concepts clés[1].
Le design de Mamba permet de traiter des contextes extrêmement longs (jusqu'à 256 000 tokens dans des architectures hybrides comme Jamba[3]), là où les Transformers classiques peinent à dépasser 32 000 tokens sans techniques de fenêtrage[4]. Cette capacité repose sur une croissance linéaire du temps d'inférence avec la longueur de la séquence, évitant l'explosion combinatoire des calculs d'attention ( vs )[1].
Concrètement, Mamba facilite le traitement de documents entiers (livres, rapports techniques) pour des tâches comme le résumé automatique ou la synthèse contextuelle. Des optimisations matérielles (hardware-aware) exploitent efficacement les GPU modernes grâce à des opérations parallélisables pendant l'entraînement et un état caché compact pendant l'inférence[1].
Mamba est simultanément le nom du premier modèle de langue reposant sur cette architecture, un modèle expérimental à 3 milliards de paramètres.
Le design particulier de Mamba a rendu possible des expériences inédites de grands modèles de langue. MambaByte ne recourt plus à une division du texte en "tokens" (des mots ou des morceaux de mots) mais en byte (la plus petite unité de signal utilisée pour encoder les lettres), comme l'allongement du contexte rend possible un découpage beaucoup plus fin des séquences textuelles[2].
Fin mars 2024, la sortie d'un modèle hybride Mamba-Transformer Jamba par AI21 Labs confirme la faisabilité de l'entraînement de Mamba à très grande échelle et les gains de performance de l'architecture pour du contexte long (jusqu'à 256 000 tokens, soit environ 200 000 mots)[3].
Tout comme Transformeur, l'architecture Mamba est versatile. L'allongement du contexte facilite en réalité l'intégration de données non textuelles, telles que des données audiovisuelles ou génomiques.