Un domaine protéique est une partie d'une protéine capable d'adopter une structure de manière autonome ou partiellement autonome du reste de la molécule. C'est un élément modulaire de la structure des protéines qui peuvent ainsi être composées de l'assemblage de plusieurs de ces domaines. On parle alors de protéine multidomaines.
Les domaines protéiques forment en général une structure compacte et stable, et peuvent parfois être produits de manière indépendante (par génie génétique, coupure protéolytique...). Ils peuvent être porteurs de certaines fonctions spécifiques de la protéine complète : liaison de ligands, interaction avec d'autres macromolécules, site catalytique...
Un domaine protéique donné est en général caractérisé par sa structure tridimensionnelle et par un certain nombre d'acides aminés conservés dans sa structure primaire. Un même domaine protéique peut être présent dans différentes protéines (voir figure) de fonctions variées. Cette organisation modulaire des protéines en domaines est un des leviers de l'évolution moléculaire qui permet de les utiliser de manière combinée comme briques de base pour construire une grande variété de protéines.
La définition d'un domaine protéique s'articule ainsi autour de trois concepts : unité de base de structure, unité de base de fonction, unité de base de repliement.
La taille typique d'un domaine protéique varie entre 30 et 500 acides aminés[1], avec une moyenne autour d'une centaine d'acides aminés.
L'existence d'intermédiaires dans le repliement de chacun des monomères de protéines a été démontrée par Michel Goldberg en 1969, qui a désigné sous le nom de « globules » ces régions de chaînes polypeptidiques se repliant de façon autonome, autour de centres de nucléations indépendants, avant l'élaboration de la structure tertiaire complète de la protéine. En 1973, un modèle similaire fut proposé par Donald B. Wetlaufer sous le nom de « domaine », terme qui fut finalement retenu[2].
Il existe une grande diversité de domaines protéiques, mais néanmoins plus limitée que celle des protéines entières. Certaines estimations avancent le chiffre de quelques milliers seulement de structures possibles pour un domaine globulaire[3]. On peut reconnaitre des éléments récurrents dans l'architecture de ces domaines, ce qui a permis d'en faire une classification[4].
Certains domaines sont très fréquents et présents dans de très nombreuses protéines. Le motif de reconnaissance de l'ARN ou domaine RRM a ainsi été trouvé dans les séquences de pas moins de 928 protéines codées dans le génome humain[5].