Les répétitions dispersées sont des séquences d'ADN présentes dans le génome des organismes vivants et qui sont répétées à plusieurs endroits différents sur les chromosomes. Ces séquences, dont la longueur peut varier de plusieurs centaines à plusieurs milliers de nucléotides, correspondent à des éléments mobiles, capables de réplication autonome ou semi-autonome et qui sont donc susceptibles de produire des copies additionnelles qui vont s'intégrer à d'autres endroits dans le génome[1].
Les séquences répétées dispersées peuvent être rangées en plusieurs catégories, en fonction du mécanisme moléculaire qui conduit à leur duplication. Certaines répétitions sont répliquées par un mécanisme qui fait intervenir un intermédiaire ADN, c'est en particulier le cas des transposons à ADN. D'autres répétitions sont dupliquées par un mécanisme faisant intervenir un intermédiaire ARN qui est ensuite recopié en ADN. C'est le cas des rétrotransposons, des rétrovirus endogènes, des LINE et des SINE (éléments dispersés long et courts).
Certaines de ces séquences ou éléments répétés codent en leur sein les protéines qui sont nécessaires au processus de réplication et interviennent dans la synthèse de l'ADN et son insertion à un nouveau site. Ils sont qualifiés d'autonomes. D'autres sont partiellement ou totalement défectifs et soit dépendent des protéines fonctionnelles codées par les éléments autonomes, soit ont perdu toute capacité à se répliquer. On parle alors d'éléments répétés non-autonomes ou fossiles.
Il en existe trois principales classes
Les rétroéléments sans LTR sont des séquences répétées qui se répliquent par transcription inverse d'un intermédiaire ARN. Dans le génome, ils sont précédés d'un promoteur qui permet la transcription de cet ARN qui est polyadénylé en 3' par la machinerie cellulaire, comme un ARN messager.
L'ARN ainsi transcrit code en général pour deux activités, une endonucléase à ADN, qui va cliver un seul des deux brins du duplex d'ADN de la séquence cible où le rétrotransposon va s'insérer, et une transcriptase inverse qui effectue la copie de l'ARN en ADN. Dans le cas des séquences LINE L1 des mammifères, les deux activités, endonucléase et transcriptase inverse, sont codées par le même polypeptide[2]. Les sites reconnus par l'endonucléase se situent préférentiellement dans des régions riches en A et T, au niveau de séquences de type :
5'TTAAAA3' 3'AATTTT5'
Elle clive l'ADN dans le brin du bas, entre les A et les T en libérant une extrémité 3'-hydroxyle[2]. La série de T peut alors s'apparier avec la queue poly(A) de l'ARN, ce qui permet à une transcriptase inverse également codée par le LINE de l'utiliser comme amorce pour synthétiser une copie ADN qui sera finalement insérée au site de clivage de l'endonucléase.
Environ 45 % du génome humain est constitué de répétitions dispersées de différents types[3]. Les plus nombreuses sont les SINE, dont on dénombre environ 1,5 million de copies dont environ 1 million de copies de la séquences Alu. Elles représentent environ 13 % de l'ADN génomique humain. Les répétitions dispersées qui représentent la fraction la plus grande de notre génome sont toutefois les LINE, moins nombreuses (~800 000 copies) mais beaucoup plus longues : 6000 à 8000 pb contre 100 à 400 pour les SINE. Notre génome contient également des rétrovirus endogènes, qui sont le plus souvent défectifs et totalement inactifs. Une famille, appelée HERV-K (pour Human endogeneous rétrovirus type-K) est encore capable de se répliquer. Ce sont des « fossiles » d'infections virales qui se sont produites dans la lignée humaine.
La dernière classe de répétitions dispersées est constituée des transposons à ADN.
Les caractéristiques des différents types de répétitions dispersées sont indiquées dans la table suivante[3] :
Type de répétition | Longueur | Nombre | Fraction du génome |
---|---|---|---|
SINE | 200-600 pb | 1 500 000 | 13 % |
LINE | 2500-6000 pb | 850 000 | 21 % |
Rétrovirus endogène | 1000-11000 pb | 450 000 | 8 % |
Transposon à ADN | 100-3000 pb | 300 000 | 3 % |