Dossier - le séquençage des génomes

Gilles Furelaud, Yann Esnault (Genoscope)

le séquençage d'un génome : comment ça marche ?

[sommaire] [génomes] [séquençage : introduction | aléatoire global | clone par clone| résumé | liens] [apports]

c - stratégie "clone par clone"

Cette stratégie « clone par clone » (dite encore du « shotgun hiérarchique ») est celle qui a été adoptée par le consortium international pour le séquençage du génome humain (HGP : Human Genome Project). Il s'agit d'une démarche en deux temps : établissement d'une carte physique, ordonnant des clones de grande taille dans le génome humain, puis séquençage (de type "shotgun") de ces clones. La carte peut aussi être construite en même temps que le séquençage progresse. Une aide essentielle dans la construction d’une carte physique est apportée par les cartes de liaison.

Les cartes de liaison : pour se repérer dans le génome

Ces cartes permettent de disposer de marqueurs, c’est-à-dire de points de repère, ordonnés le long des chromosomes par la mesure de leur liaison deux à deux. La nature de cette liaison dépend de la nature de la carte. On utilise deux types d’approches pour construire une carte de liaison :

Une première approche est l'utilisation de marqueurs génétiques polymorphes, qui sont ordonnés grâce à l'étude des fréquences de recombinaison génétique (mesure de leur « liaison génétique »). Les cartes obtenues de cette manière sont nommées "cartes génétiques". La première carte génétique de l’ensemble du génome humain remonte à 1987 ; elle reposait sur des marqueurs de type RFLP, obtenus grâce aux enzymes de restriction. Les marqueurs privilégiés depuis le début des années 90 sont les microsatellites. En 1996, le laboratoire Généthon a publié une carte génétique de référence du génome humain, ordonnant 5264 microsatellites, qui est encore très utile aujourd’hui. Elle a notamment permis de cartographier de nombreux gènes associés à des maladies génétiques.

Dans le second type de cartes de liaison, on utilise des marqueurs moléculaires non nécessairement polymorphes. Il s’agit de séquences d'ADN présentes de manière unique dans le génome (STS : Sequence Tagged Sites), ce qui inclut aussi les marqueurs génétiques. On ordonne ces marqueurs en mesurant la fréquence avec laquelle deux d’entre eux sont séparés par une cassure induite par rayons X. On parle dans ce cas de cartes obtenues par hybrides d'irradiation.

Les marqueurs moléculaires des cartes de liaison sont précieux pour valider et ancrer les cartes physiques le long des chromosomes.

La carte physique : une collection de clones

L'établissement d'une carte physique a principalement pour but de faciliter l'établissement de la séquence finale du génome. Dans la stratégie du séquençage « clone par clone », la phase de séquençage aléatoire est conduite sur chacun des grands fragments ordonnés de la carte, et non sur l’ensemble du génome. Cela permet de réduire la difficulté d'assemblage à des fragments de 300 milliers de paires de bases au maximum, au lieu des 3 milliards du génome entier. Cette stratégie permet aussi de focaliser le travail de finition : on peut repartir à volonté du fragment sur lequel on travaille pour parfaire le séquençage, boucher les trous, etc. Il est en outre plus facile de répartir le travail entre plusieurs collaborateurs avec un minimum de coordination, de vérifier la validité de la séquence assemblée, et d'éviter en partie les problèmes posés par le polymorphisme (dans un séquençage aléatoire global, même en partant d'un seul individu, on assemble en effet des séquences qui proviennent de deux chromosomes).

Pour construire une carte physique, on casse le génome (humain dans notre cas) en fragments de grande taille, afin de couvrir l'ensemble du génome avec relativement peu de fragments. La carte construite par le consortium international a permis ainsi de définir un "chemin de recouvrement minimal" de 26 614 fragments, pour un total de 2 841 366 484 paires de bases.

Les fragments nécessaires à la réalisation d'une carte physique mesurent en moyenne plus de 100 000 paires de bases (100 kilobases). Le premier problème qui s’est posé à la communauté scientifique a été de trouver des vecteurs supportant des inserts d’une telle taille.


Fabrication d'une banque d'ADN génomique : l'ADN génomique est fragmenté. Chaque fragment est inséré dans un vecteur, puis l'ensemble vecteur-insert est intégré dans une cellule (bactérie, levure...) qui, après étalement, se mutliplie pour former une population de cellules toutes identiques (un clone), visible sous la forme d'une colonie. On constitue alors une collection de clones cellulaires ayant intégré un couple insert-vecteur. Cette collection est nommée "banque d'ADN génomique", puisque ces clones constituent une représentation, que l'on espère la plus complète possible(voir le complément sur la modélisation statistique), de l'ADN génomique de l'organisme à séquencer.

Les vecteurs les plus utilisées en biologie moléculaire, plasmides et cosmides, ne permettent pas de cloner des fragments de plus de 45 kilobases (45 000 paires de bases). Ils sont donc inadaptés au clonage d'inserts suffisamment grands pour réaliser une carte physique. Dans un premier temps, les chercheurs ont utilisé les chromosomes artificiels de levure (YAC : Yeast Artificial Chromosome). Ces vecteurs permettaient l'insertion de fragments allant jusqu'à 1 000 kilobases. Mais ils ont été abandonnés : en effet, des échanges de fragments d'ADN avaient lieu... Certains clones "chimériques" ne correspondaient ainsi plus aux inserts clonés.
Les vecteurs qui ont été utilisés pour établir la carte physique du génome humain sont principalement les chromosomes artificiels bactériens (BAC : Bacterial Articifial Chromosome). Bien que de plus faible capacité que les YAC (seulement 300 kilobases au maximum, 150 kilobases en moyenne), ils n'en présentent pas les graves défauts. Des vecteurs dérivés du phage P1 (les PAC), de même capacité, ont aussi été utilisés.

Ordonner les clones

La première étape a donc consisté à obtenir des clones de grande taille, de l'ordre de 100 à 200 kilobases. Il a fallu ensuite ordonner ces clones, c'est-à-dire les positionner les uns par rapport aux autres, et le long des chromosomes humains.

Le positionnement des clones les uns par rapport aux autres fait appel à différentes techniques, dont le point commun est de rechercher les parties communes entre différents clones. Parmi ces techniques, on peut citer :

L’on peut alors positionner le long des chromosomes les groupes de grands clones chevauchants ainsi constitués, en particulier grâce aux cartes de liaison.

Une fois tous les grands clones ordonnés et positionnés le long du génome humain, on dispose d'une carte physique du génome. On peut alors sélectionner un ensemble minimal de grands clones chevauchants (un chemin de recouvrement) en vue de les séquencer. Concrètement, le choix des grands clones à séquencer peut être réalisé en même temps que le séquençage progresse, ce qui permet dans une certaine mesure de minimiser les régions de chevauchement entre les grands clones.

Une stratégie "shotgun" pour le séquençage final

Pour séquencer les clones de grande taille, une stratégie de type "shotgun" (séquençage aléatoire) est utilisée : chaque clone de grande taille est découpé en un grand nombre de fragments de petite taille (environ 2 kilobases - 2 000 paires de bases), dont les extrémités sont séquencées individuellement. . Ces séquences sont ensuite assemblées, afin de fournir une séquence aussi complète que possible du clone de grande taille. L'assemblage des séquences des clones de grande taille (aux trous près qui peuvent demeurer entre ces clones) donne la séquence du génome humain.

Conclusion : avancement du Projet Génome Humain

La carte physique a été achevée par le consortium international début 2000. Elle couvrait alors 97% du génome humain. Le séquençage à 7,5X à partir de cette carte avait permis d’assembler une ébauche de la séquence qui couvrait quant à elle 87% du génome. 28% étaient déjà sous forme de séquence "finie".

Grâce au passage de 7,5X à 10 X et à une finition ciblée sur les zones de faible qualité et les trous, le consortium est passé de cette ébauche à une séquence complète du génome humain, célébrée en avril 2003. Cette séquence couvre 99% du génome humain, avec une précision de 99,99%.

 

conclusion - résumé

 

retour sommaire "génomes"

[sommaire] [génomes] [séquençage : introduction | aléatoire global | clone par clone| résumé | liens] [apports]