La phylogénétique moléculaire est l'utilisation de séquences de macromolécules biologiques pour obtenir des informations sur l'histoire évolutive des organismes vivants, et notamment sur leurs liens de parenté (leur phylogénie). C'est un important outil d'étude parmi ceux de l'évolution moléculaire. Le produit d'une analyse de phylogénétique moléculaire est soit un arbre phylogénétique, soit un graphe du réseau phylogénétique.
Les macromolécules biologiques telles que l'ADN, l'ARN ou les protéines sont des composants fondamentaux de tous les êtres vivants. Ces molécules sont des polymères constitués de l'enchaînement de briques moléculaires de base (les monomères), dont la succession constitue la séquence primaire. Ainsi, l'ADN peut être considéré comme un texte écrit dans un alphabet à 4 lettres, les nucléotides : adénosine (A), thymidine (T), guanosine (G) et cytidine (C), et les protéines comme un texte écrit dans un alphabet à 20 lettres, les 20 acides aminés.
Les génomes des organismes vivants évoluent par des mutations successives qui s'accumulent au cours du temps dans l'ADN, selon un rythme estimé plus ou moins constant, sachant que l'ADN non codant, qui n'est pas affecté par la sélection naturelle, constitue l'essentiel de l'ADN des êtres vivants. Le degré de parenté entre deux organismes vivants est ainsi reflété par le degré de similarité des séquences de leur ADN et de leurs protéines. Des espèces très proches par l'ADN ont un ancêtre commun récent, car peu de mutations ont eu le temps de se produire depuis qu'elles ont divergé à partir de leur dernier ancêtre commun.
Jusqu'à une date assez récente, la séquence primaire des molécules biologiques n'était pas directement accessible. Cependant, au cours des 20 dernières années, l'avènement de la réaction en chaîne par polymérase (PCR) et du séquençage de l'ADN par la méthode de Sanger ont permis un développement très important de cette approche, ce qui a eu pour conséquence de profondément remanier la vision traditionnelle de la classification des organismes. Malgré les problèmes qu'elle a pu rencontrer, la phylogénétique moléculaire a ainsi permis de redonner un nouveau souffle à la systématique en permettant de mieux comprendre l'origine de certains traits morphologiques des organismes.
Par ailleurs, la phylogénétique moléculaire peut être associée à des domaines tels que la médecine légale ou les tests génétiques.
On peut considérer que la systématique moléculaire au sens large est née aux alentours de 1904, lorsque G.H.F. Nuttall utilisa pour la première fois les incompatibilités immunologiques entre primates pour estimer leur distance évolutive relative[1]. Des méthodes de plus en plus perfectionnées furent utilisées pour étudier les différences entre les protéines. D'une part les méthodes immunologiques comme l'immunodiffusion, appliquée à l'étude des liens de parenté entre les primates par Allan Wilson. D'autre part, l'électrophorèse des allozymes et isoenzymes.
Les cadres théoriques de la systématique moléculaire ont été posés dans les années 1960 dans les travaux de Emile Zuckerkandl, Emanuel Margoliash, Linus Pauling, et Walter M. Fitch[2]. Les applications de la systématique moléculaire ont été mises au point par Charles G. Sibley (ornithologie), Herbert C. Dessauer (herpétologie), et Morris Goodman (primates), suivies par Allan Wilson, Robert K. Selander, et John C. Avise (qui a étudié divers groupes). Le travail avec l'électrophorèse des protéines a débuté vers 1956. Bien que les résultats ne soient pas quantitatifs et n'aient pas amélioré initialement la classification morphologique, ils ont fourni des indices alléchants selon lesquels les notions longuement retenues des classifications des oiseaux, par exemple, ont nécessité une révision substantielle. Dans la période 1974-1986, l'hybridation d'ADN-ADN était la technique dominante[3].
Les premières études basées sur l'ADN utilisèrent la méthode d'hybridation ADN-ADN mise au point par Charles Sibley et Jon Ahlquist. Cette technique permet d'évaluer la distance entre l'ADN de deux espèces en comparant les températures des dissociations de l'ADN double-brin hybride et fut utilisée avec un certain succès pour étudier les liens de parenté des oiseaux ou des primates[4]. Cependant ces méthodes étaient fondées sur l'évaluation de distances globales, sans possibilité d'évaluer l'homologie des caractères comparés, une condition indispensable à l'application de la méthode cladistique à la base de la phylogénétique moderne. Ce problème sera en grande partie résolu avec le séquençage de l'ADN (par la méthode de Sanger), donnant accès direct à la séquence primaire des molécules, constituant le fondement de la phylogénétique moléculaire au sens strict.
Toutes les régions de l'ADN des organismes (et donc les protéines qu'elles codent) n'évoluent pas à la même vitesse ; certains gènes sont « contraints » car ils assurent des fonctions essentielles à la survie des organismes (des mutations même minimes de ces gènes limitent drastiquement la viabilité de leurs porteurs). Inversement certaines régions, comme les gènes codant des marqueurs du système immunitaire évoluent rapidement. Ces types de marqueurs permettent donc d'étudier des relations évolutives à faible échelle, par exemple au sein d'une population ou entre espèces proches (par exemple, les primates avec l'exemple des travaux de Nuttall ou Wilson). C'est a fortiori vrai pour les régions non codantes sur lesquelles la pression de sélection est inexistante.
Pour réaliser des études globales, il est nécessaire de s'appuyer sur des séquences ou des gènes qui sont présents chez toutes les espèces vivantes, afin de pouvoir effectuer des analyses exhaustives et systématiques. Ces gènes sont dits "ubiquitaires". Les plus importants et classiques sont les marqueurs de l'ARN ribosomique 16S et 23S (procaryotes) ou 18S et 28S (eucaryotes) qui sont généralement utilisés. Ces ARN structuraux sont les constituants principaux des ribosomes responsables de la traduction des ARNm en protéines, dont la fonction est essentielle à la vie et qui sont donc présents chez tous les organismes vivants.
Les progrès du séquençage ont permis d'augmenter le nombre de marqueurs disponibles pour réaliser des études de phylogénétique moléculaire. Ainsi, les génomes mitochondriaux et chloroplastiques qui contiennent plus d'une dizaine de gènes ont été utilisés pour étudier les relations des animaux et des plantes, respectivement[5]. Plus récemment, l'augmentation des données de génomes ou de transcriptomes complets disponibles a rendu possible d'étudier l'ensemble des gènes dont l'homologie peut être vérifiée. Des jeux de données incluant une centaine de gènes sont aujourd'hui utilisés couramment pour résoudre les relations des eucaryotes ou des animaux. Cette nouvelle approche est appelée phylogénomique[6].
La construction d'un arbre en phylogénétique moléculaire passe par trois étapes :
Malgré l'importance des deux premières étapes, une grande part des avancées de la phylogénétique moléculaire est liée aux algorithmes de reconstruction proprement dite.
Type de données | ||
---|---|---|
Méthode de reconstruction | Distances | Sites |
Algorithme de clustering | UPGMA, Neighbour joining | |
Critère d'optimisation | Minimum d'évolution (ME) | Maximum de parcimonie (MP) Maximum de vraisemblance (ML) |
Les méthodes de maximum de parcimonie, ou plus simplement méthodes de parcimonie ou encore parcimonie de Wagner, sont des méthodes statistiques non paramétriques. Ces méthodes permettent de construire des arbres de classification hiérarchique après enracinement, lesquels permettent d'obtenir des informations sur la structure de parenté d'un ensemble de taxons. Sous l'hypothèse du maximum de parcimonie, l'arbre phylogénétique « préféré » est celui qui requiert le plus petit nombre de changements évolutifs.
Cependant les méthodes de maximum de parcimonie semblent sur un plan purement conceptuel, inadaptées à l'évolution biologique qui se produit sur des durées considérables et où chaque changement et réversion a probablement été exploré à de multiples reprises. En effet ce principe sous-entend que les phénomènes de convergence évolutive et de réversibilité (retour d'un caractère à l'état ancestral) soient relativement rares.
Il s'agit tout d'abord de choisir le critère de distance entre les futures feuilles de l'arbre. Par exemple, si ces feuilles sont des séquences d'ADN, on peut choisir comme distance entre deux d'entre elles le nombre de nucléotides qui diffèrent. Pour déterminer cette valeur, on est amené à en effectuer un alignement. Puis on peut utiliser la méthode UPGMA ou celle du Neighbour joining pour en déduire l'arbre.
Parmi les méthodes probabilistes on compte notamment le maximum de vraisemblance et l'inférence bayésienne.
L'estimation du maximum de vraisemblance est une méthode statistique courante utilisée pour inférer les paramètres de la distribution de probabilité d'un échantillon donné. Cette méthode a été développée par le statisticien Ronald Aylmer Fisher en 1922.
Voici un exemple pédagogique: Considérons un cas où "n" ticket numérotés de 1 à n sont placés dans une boîte et plusieurs d'entre eux ("k" tickets) sont sélectionnés au hasard (distribution uniforme). Si "n" est inconnu, alors l'estimateur du maximum de vraisemblance n est le numéro "m" qui est inscrit sur le ticket. Si on a sélectionné beaucoup de tickets, on peut penser que la distribution des probabilités fait que le nombre "m" maximum obtenu est proche du nombre "n", sinon si on a sélectionné peu de tickets, on peut supposer que le "m" maximum est "au milieu" de l'échantillon, d’où une formule: n = m + (m / k) - 1.
L'inférence bayésienne est une méthode d'inférence permettant de déduire la probabilité d'un événement à partir de celles d'autres événements connues au préalable. Elle s'appuie principalement sur le théorème de Bayes. Le raisonnement bayésien s'intéresse aux cas où une proposition pourrait être vraie ou fausse, selon des observations où subsiste une incertitude. On attribue une distribution de probabilité pour ces issues.
La systématique moléculaire est une approche essentiellement cladistique : elle suppose que la classification doit correspondre à la descendance phylogénétique et que tous les taxons valides doivent être monophylétiques.
La découverte récente d'un transfert génétique horizontal étendu parmi les organismes fournit une complication importante à la systématique moléculaire, ce qui indique que différents gènes au sein d'un même organisme peuvent avoir des phylogénies différentes.
En outre, les phylogénies moléculaires sont sensibles aux hypothèses et aux modèles qui entrent dans leur construction. Elles sont confrontées à des problèmes tels que l'attraction à longue branche, la saturation et les problèmes d'échantillonnage de taxons. Cela signifie que des résultats très différents peuvent être obtenus en appliquant différents modèles au même ensemble de données.