BiopSci

La science à portée de tous

Séquençage de l’ADN: la révolution est (de nouveau) en marche

Par | Catégorie: Biologie, Comment ça marche, Décryptage, Dossier, Génomique | Le 22 fév 2012

Séquencer l’ADN. Voilà une idée qui a longtemps relevé de la science fiction et nourri bien des fantasmes au sein de la communauté scientifique. Et pour cause. Si la structure de l’ADN, support de notre information génétique, a été découverte en 1953, il aura fallu attendre la seconde moitié des années 70 pour que Frederick Sanger, double prix nobel de chimie, publie une méthode de séquençage qui portera son nom et permettra, après améliorations, de déterminer les séquences d’ADN de bactéries, de micro-organismes, de vertébrés ou de l’Homme.

Bien que fiable, cette technique en restait lente et demandait un travail considérable pour séquencer un génome complexe tel celui de l’Homme. Là où les scientifiques rêvaient d’un mécanisme qui permettrait de lire une longue molécule d’ADN d’une seule traite, cette technique ne pouvait, après maintes manipulations préalables, en séquencer que des petits tronçons de quelques centaines de nucléotides (les fameux A, T, G et C).
Séquencer le génome humain aura alors demandé un travail colossal. Il aura fallu reconstituer une séquence de 3 milliards de nucléotides en séquençant puis assemblant des petits morceaux de 1000 nucléotides maximums. Ce travail de titan aura, à l’époque, nécessité le travail de centaines de laboratoires à travers le monde, plus de 3 milliards de dollars sur une durée de de 11 ans (de 1990 à 2001) pour ne publier qu’une version incomplète du génome. Ce qui apparut alors comme une révolution scientifique est en passe d’être éclipsé par de nouvelles avancées technologiques. Bientôt, un tel projet pourrait s’effectuer en quelques heures et, plus fort encore, à l’aide d’une simple clé USB.

Fin du 20ème siècle, les années escargots

DNAUne représentation d’un double brin d’ADN, composé des bases complémentaires A, T et G, C

Onze ans. C’est le temps qu’il aura fallu pour qu’une large communauté scientifique publie une première version (incomplète) du génome humain. Pour comprendre pourquoi plus de 10 ans ont été nécessaires, effectuons un rapide retour sur la technique utilisée.
L’ADN est une molécule composée de 4 éléments de bases, les nucléotides A, T, G et C. Plus précisément, cette molécule est composée de deux brins complémentaires, un A se trouvant toujours face à un T et un G face à un C (voir cadre de droite). A défaut de pouvoir lire une longue succession de ces nucléotides, les biologistes moléculaires (notamment Frederick Sanger) auront du détourner des réactions chimiques connues. Naturellement, l’ADN est dupliqué (on dit aussi répliqué), notamment lorsqu’une cellule se divise. Ces réactions bien connues ont besoin, entre autres, d’un brin d’ADN à copier et d’une protéine spécifique appelée polymérase d’ADN. Cette protéine « lira » le brin modèle de manière séquentielle (l’un après l’autre) et mettra un A en face d’un T un un C en face d’un G (et inversement). La technique de Sanger repose sur ce principe simple à l’exception qu’une partie des nucléotides utiles à la réaction sont modifiés et empêchent la continuation de la réaction chimique.

6624-sequencing-imageIllustration du séquençage selon la méthode Sanger. Différents fragments de longueurs différentes ont été générés et, pour chacun, le dernier nucléotide est identifiable grace au fluorophore associé.

Le principe est alors le suivant. Nous disposons d’une molécule d’ADN simple brin qui a été extraite d’une échantillon. Cet ADN est d’abord passé du statut de double brin (deux brins complémentaires) à simple brin et amplifié (on créé plusieurs copies de ce brin modèle). A partir de là, l’ajout d’une polymérase d’ADN et des nucléotides A, T, G et C permet, comme cela se fait naturellement, de générer le brin complémentaire. Mais, comme nous l’avons vu précédemment, la technique de Sanger inclut à cette réaction quelques nucléotides modifiés qui stopperont la réaction. Ces nucléotides modifiés seront alors incorporés aléatoirement dans le processus de réplication. A la fin de la réaction, la solution contiendra alors une diversité de brins partiellements reproduits. Certains se seront totalement recopiés lors que d’autres ne le seront qu’à moitié. Cette solution sera alors analysée par un séquenceur d’ADN qui devra: séparer ces brins synthétisés par leur taille puis déterminer quel est le dernier nucléotide inséré. Pour la première étape, les brins seront séparés selon leur taille, les plus courts seront plus légers et se déplaceront plus vite tandis que plus longs mettront plus de temps à parcourir une même distance. Pour reconnaître quel est le dernier nucléotide inséré, la machine utilisera l’une des modifications apportées à ces nucléotides terminateurs de chaînes: ils sont couplés à un fluorophore. Ainsi, stimulé par un rayon laser, ce fluorophore renverra une couleur particulière qui correspond à un nucléotide particulier (par exemple, une couleur bleue correspondra au nucléotide G). Ces outils de précisions que sont les séquenceurs pourront alors savoir quel nucléotide est présent à quelle position de la séquence et ainsi déterminer leur enchainement précis dans la séquence (voir cadre de gauche ou vidéo d’explication).

Si la méthode est ingénieuse, elle souffre de nombreuses limitations, la plus grande étant le rendement. En effet, les étapes de préparation de l’échantillon d’ADN sont déjà longues. Il faut le fractionner en morceaux de taille lisible, l’amplifier pour finalement les séquencer, des étapes demandeuses en temps et argent. Une fois ce travail effectué, il n’est possible de traiter qu’un échantillon par machine à la fois et les séquences lues n’excédent généralement pas les 1000 nucléotides. L’assemblage de ce gigantesque puzzle de séquences demande par la suite un long traitement informatique et quelques vérifications humaines voire expérimentales. Pour arranger le tout, il faut lire plusieurs fois une même région du génome pour être sur de l’avoir bien reconstitué et de ne pas avoir été victime d’erreurs de séquençage. Pas de quoi accélérer la procédure…

La parallélisation comme première révolution

genome-sequencer-flx-system1Un séquenceur 454 utilisant la technique du pyroséquençage

Quelques petites années après la publication du génome humain, de nouvelles machines firent leur apparition sur le marché et vinrent donner un véritable coup de boost au séquençage de l’ADN. Les principaux acteurs de cette première révolution furent Solexa (racheté depuis par Illumina) et 454 Life Sciences (fondé par Jonathan Rothberg – on reparlera de lui – et racheté par Roche par la suite). Ces deux plateformes durent leur succès à une parallélisation des réactions de séquençage synonyme d’une baisse des coûts et d’une rapidité accrue. Là où la méthode de Sanger demande d’abord de générer différents brin d’ADN de longueurs différentes et associés à un fluorophore pour être ensuite lu, ces méthodes reconstituent directement les brins d’ADN en déterminant quels éléments viennent d’être intégrés.

Pour ce faire, ces technologies partent aussi d’une brin d’ADN simple brin préalablement préparé (ce qui demande toujours du temps) mais utilisent par la suite des approches différentes. La plateforme 454, qui s’appuie sur la technique de pyroséquençage, mettra alors dans le milieu de séquençage un seule des nucléotides A, T, G ou C. Si le nucléotide attendu pour initier ou continuer la synthése du brin complémentaire est celui présent dans le milieu, il sera alors incorporé et, grace aux enzymes présentes émettra un signal lumineux qui sera interprété par le séquenceur. Le nucléotide inséré sera alors dégradé afin de faire place à un nucléotide différent qui sera à son tour potentiellement inséré dans la séquence complémentaire (voir vidéo d’explication).
La platforme Solexa opte pour une stratégie différente et plus proche de la méthode de Sanger développée précédemment. Les quatre nucléotides différents associés à un fluorophore sont insérés dans le milieu de séquençage. Les nucléotides nécessaires à l’élongation du brin complémentaire sont alors insérés mais une modification de leur structure empêche cette élongation de se poursuivre. La séquence d’ADN est alors allongée d’une seule base et un signal lumineux permet de déterminer la couleur du fluorophore présent et donc du nucléotide qui a été intégré lors de ce cycle. Les précédents réactifs sont alors nettoyés et la modification du nucléotide inséré est supprimée afin de pouvoir commencer un nouveau cycle et déterminer l’identité du nucléotide suivant dans la séquence (voir vidéo d’explication).

Ces techniques ne permettent de lire que relativement peu de nucléotides à la fois (35 à 200 pour Illumina contre 300 à 600 pour 454) mais peuvent en lire une multitude en parallèle. Les réactions de séquençage sont alors plus longues mais génèrent en une seule fois une quantité énorme de données. Les premiers séquenceurs Illumina généraient environ 15 Go de données de séquences en 2 jours, ces chiffres sont en constante augmentation en raison d’une amélioration permanente du rendement et de l’apparition de nouvelles machines. Les plus récentes machine peuvent, en une réaction de 10 jours, séquencer plus de 300 milliards de nucléotides, soit 100 génomes humains ou encore 600 Go de données.

cost_per_megabaseEvolution du coût du séquençage pour 1 million de nucléotides.Source

Bien qu’impressionnantes en terme de production, ces machines restent chères (les prix se chiffrent en centaines de milliers d’euros) et demandent toujours une préparation minutieuse des échantillons d’ADN. Les séquences générées étant assez courtes elles peuvent poser certains problèmes pour des projets spécifiques, comme l’assemblage de génomes complexes encore inconnus. Mais il faudra surtout retenir que ces avancées technologiques auront permis de grandement accélérer les processus de séquençage de l’ADN notamment grace à une importante baisse des coûts, contribuant à démocratiser cette technologie dans les laboratoires. Alors qu’il fallait débourser près de 10 000 $ pour séquencer un million de nucléotides au début du siècle, il n’en faut maintenant pas plus que 0.1$ désormais, soit une diminution d’un facteur 100 000 (voir graphique ci dessus)! Une évolution telle que les biologistes ne se contentent plus d’un seule génome de référence mais ils visent la barrière des 1000 génomes humains séquencés d’ici peu.

Passer à l’électricité, la deuxième révolution

Mais les équipes de recherche et développement ne se sont pour autant pas arrêtées là. De nombreuses entreprises ont continué à développer de nouvelles technologies permettant d’encore diminuer les coûts et améliorer le rendement des réactions de séquençage. Le but avoué était de faire passer le coût de séquençage d’un génome humain sous la symbolique barre des 1000$ tout en facilitant la préparation des échantillons initiaux. Pour ce faire, différentes technologies ont été développées en s’affranchissant des fluorophores associés à de l’ADN modifié pour faire appel aux propriétés électriques de l’ADN.

HEALTH-GENOME/J. Rothberg aux cotés d’une machine PGM2 commercialisée par Ion Torrent

Dans ce domaine, ce fut IonTorrent, fondé par Jonathan Rothberg (encore lui), le premier à frapper. Leur technologie se « contente » de synthétiser le brin complémentaire d’un ADN simple brin grace à une polymérase. Lorsqu’un nucléotide est incorporé (un seul nucléotide différent est présent à la fois dans le milieu), la réaction chimique libère un proton. Pour ceux qui se souviennent de leurs cours de chimie, le pH d’une solution dépend de la concentration en protons de cette solution. Le fait d’incorporer une nouvelle base pour synthétiser le brin complémentaire va alors sensiblement modifier le pH de la solution. Avec la plateforme IonTorrent, ces réactions sont effectuées dans des micro-puits qui reposent sur des micro-transistors capable de détecter des infimes variations de pH. Ainsi, en détectant qu’un ou plusieurs protons ont été libérés lorsqu’un nucléotide précis se trouvait dans le milieu de réaction, le séquenceur peut, étape après étape, déterminer la séquence d’ADN présente dans le puits (voir vidéo d’explications). Finalement, ces puits et transistors étant microscopiques, il est facile de multiplier leur nombre sur un faible espace, ce qui explique que IonTorrent fut la première entreprise à commercialiser un séquenceur haut début tenant sur un bout de paillasse (voir illustration de droite).

Les avantages de cette technique sont multiples. D’une part elles sont beaucoup moins chères (de 50’000 à 150’000 dollars selon les machines) et ne demandent que peu de réactifs chers (tels que les nucléotides modifiés et fluorophores). Autant d’argument qui ont poussé le fondateur de la compagnie de défendre sa technologie comme la première à vraisemblablement permettre de séquencer un génome humain pour moins de 1000$, comme il l’a lui même expliqué au forum économique de Davos.

Si la précision de cette technologie est encore perfectible (certains avancent un taux d’erreur extrêment élevé), une menace bien plus grande vient de surgir pour Ion Torrent. Lors de la conférence annuelle AGBT (Advances in Genome Biology and Technology), l’entreprise Oxford Nanopore Technologies (ONT) a secoué le microcosme des biotechnologies avec l’annonce de deux nouvelles machines utilisant une technologie de séquençage par nanopore. Leur technologie repose sur l’utilisation de nanopores, des protéines trans-membranaires modifiées (comprendre des sortes de tunnel traversant une membrane telle celle délimitant nos cellules), qui ont la capacité d’émettre un signal électrique spécifique lorsqu’elles se trouvent au contact de certaines molécules. De l’ADN non ou peu préparé présenté à ces nanopores imbriquées dans des membranes hybrides polymères-lipides, les traversera et, à son passage, émettra un signal électrique spécifique. Le séquenceur interprètera ce signal électrique pour savoir quel nucléotide en est responsable (voir vidéo ci dessous). La technique ne nécessite que peu ou pas de préparation de l’ADN et ne connait virtuellement pas de limite de longueur de lecture. Ainsi, Oxford Nanopore Technologies a montré comment ils ont pu séquencer le génome de plusieurs virus dont la taille des génomes varient de 5000 à 50000 nucléotides en une seule lecture avec un taux d’erreur encore relativement élevé (4%) mais rapidement améliorable selon l’entreprise.


Vidéo illustrant le fonctionnement de la technologie utilisée par les systèmes GridIon et MinIon. Si la vidéo n’apparait pas, rafraichissez cette page ou visualisez la ici.

A l’image de la technologie utilisée par Ion Torrent, les systèmes développés par ONT sont extrêmement petits et peuvent facilement être mis en parallèle. L’entreprise a donc décidé de commercialiser, d’ici peu, deux types de produits. Le premier GridION, consiste en des unités de séquençage accumulables à l’image de serveurs informatiques et vise à créer des fermes de séquenceurs dont les ressources pourront être graduellement utilisés selon les besoins du projet. Par exemple, la compagnie avance que 20 de ces unités utilisées simultanément, permettraient de séquencer l’équivalent d’un génome humain en 15 minutes seulement. Le second appareil, appelé MinION, a fait bien plus parlé de lui. Il s’agit d’une unité de séquençage par nanopore à usage unique intégré dans une clef USB. Cet outil, directement branché sur un port USB dont il tirera son alimentation, permet de lire un échantillon d’ADN en milieu aqueux (du sang par exemple) et de directement transférer les séquences lues sur l’ordinateur. Le tout pour seulement 900$.

La nouvelle a rapidement fait marcher l’imagination des scientifiques ou fans de science fiction. Bientôt votre médecin pourra, pour une somme relativement modique, séquencer votre génome ou une biopsie en face de vous. Bientôt la police scientifique pourra analyser de l’ADN directement sur une scène de crime. Aussi, les Erin Brockovich modernes pourront analyser les populations bactériennes présentes dans un échantillon d’eau sur le champ avec leur ordinateur portable.

Alors, le futur c’est déjà maintenant?

minion_in_laptopLe séquenceur d’ADN MinION inclus dans une clef USB.

Tout ce (légitime) enthousiasme doit cependant être nuancé par le fait qu’il ne s’agisse pour l’instant que d’une annonce. Aucune de ces machines n’est encore commercialisée (certains commencent à être testées dans des laboratoires indépendants) et aucune séquence issue de ces appareils n’est disponible comme l’a notamment fait remarquer J. Rothberg (peut être inquiété par les chutes des cours de sa société en bourse après cette annonce).

De plus, même si l’idée de lire un brin d’ADN directement dans préparation ni amplification est séduisante, elle peut se révéler insuffisante en pratique si les échantillons sont en faible quantité, dégradés ou contaminés. Allez expliquer à un juge ou un condamné que l’ADN retrouvé sur une scène de crime appartient à l’individu X mais que 4% de la séquence lue est potentiellement fausse. Nul doute que des analyses plus poussées seront demandées.

Enfin, ces avancées technologiques, quelles qu’elles soient, doivent faire face à deux problèmes majeurs récurrents. Premièrement, il est difficile de traiter tout ce flot de données générées quotidiennement. Quand un séquenceur génère quelques 600 Go de séquences en une expérience de quelques jours, il n’est pas aisé de les stocker et analyser. Cela demande des infrastructures de pointe tout comme des bio-informaticiens compétents et avec les qualifications requises en biologie pour les manipuler. Finalement, les technologies auront beau évolué, le goulot d’étranglement restera toujours notre capacité à analyser ces données, les comprendre et en retirer des connaissances significatives. Pour reprendre un des exemples précédents, sera-t’il nécessaire de séquencer l’ADN de tumeurs si nous ne sommes pas sûrs de pouvoir les détecter avec précision au point de vue génétique? Avant de dépenser quelques centaines d’euros pour un test de ce genre, encore faut il être sur qu’il nous en apprendra bien plus que les batteries de tests bien établis et meilleur marché déjà existants.

Les technologies de séquençage proposent de nos jours de constantes innovations permettant de faciliter ce processus et d’en abaisser les coûts. Si les dernières technologies sont prometteuses en termes d’applications il faudra certainement attendre encore quelques années pour qu’elles confirment tous les espoirs que l’on place en elles. De plus, il faudra impérativement continuer à investir dans la recherche fondamentale qui nous permettra d’en connaitre plus sur notre génome et ceux d’autres espèces afin d’élargir le champ des applications possibles.

Quelques ressources supplémentaires (en anglais):
Tableau comparatif des différentes technologies
Analyse critique des annonces de Oxford Nanopore Technologies
Une méthode de séquençage alternative développée par Pacific BioScience
Communiqués de presse de ONT

créateur de BiopSci
Voir tous les articles de

22 commentaires »

  1. Article très intéressant et très précis. Merci Philippe. C’est un plaisir de te lire.
    Dans le même registre, mais en beaucoup moins détaillé :)
    http://www.ademcan.net/index.php?2012/02/22/19/00/33-sequence-your-own-genome-using-a-usb-stick

  2. Merci pour cet article très détaillé et intéressant.

  3. [...] expérimentales qui sont des centaines de millers de petites séquences d’ADN (selon la technique de séquençage). Ces petites séquences doivent être assemblées en grandes séquences correspondant idéalement [...]

  4. Je viens de découvrir ton blog et je suis très impressionné par la qualité des articles; je sais que ce genre de choses prend énormément de temps, merci.

    Une petite faute au passage: « Finalement, les technologies auront beau évolué » -> évoluer.

  5. [...] données pour proprement tester cette hypothèse. En effet, le chromosome Y est très difficile à séquencer en raison de son contenu très particulier (notamment un grand nombre d’éléments [...]

  6. [...] correspond vraiment à la maturation du marché du séquençage de nouvelle génération (voir sur BioPsi), qui permet à de nombreux domaines de passer facilement au haut débit, et confronte les [...]

  7. [...] beau la technologie. Pour en savoir plus, aller lire cet article très détaillé sur toutes les méthodes de séquençages. Vraiment bien [...]

  8. « Evolution du coût du séquençage pour 1000 nucléotides. »
    « Alors qu’il fallait débourser près de 10 000 $ pour séquencer 1000 nucléotides […] »
    Hm, si je ne m’abuse, « Megabase » signifie « un million de (paires de ?) bases » et non « mille (paires de ?) bases ».

  9. [...] Même si nos progrès en matière de compréhension de notre génome sont constants et que les techniques de séquençage modernes ont boosté la recherche en génomique, une grande partie de notre ADN reste encore terra [...]

  10. @ Ethaniel: effectivement. Merci d’avoir relevé l’erreur qui vient d’être rectifiée.

  11. [...] très rares et fragiles, pour pouvoir séquencer l’ADN avec nos techniques imparfaites et en constante amélioration d’aujourd’hui. Et si dans 2 ou 5 ans on avait une technique permettant d’extraire [...]

  12. [...] supposés de BigFoot. Le séquençage s’est fait das un laboratoire externe, expert en nouvelles technologies de séquençage. Jusque là, en apparence, tout va [...]

  13. Aloha, en lisant l’article pas mal d’interrogation furent évincées, mais une demeure.
    Comment l’hétérozygotie d’une personne sera révélée par l’ion torrent ?

  14. [...] Announce fracassante cette semaine dans le monde du séquençage d’ADN : la société Illumina, leader du domaine, va commercialiser deux nouvelles machines : le NextSeq 500, qui vise le marché des « petits » clients, et le HiSeq X 10, qui vise au contraire les très gros centres. (Pour le contexte du séquençage ADN moderne, je vous recommande ce billet sur le blog BiopSci.) [...]

  15. [...] fonction définie, un neurone par exemple). A l’heure actuelle, il est devenu routinier de séquencer un génome mais notre connaissance des épigénomes est encore faible, ce qui peut se révéler problématique [...]

  16. bonjoure
    j’ai un question: si nous avons un séquence ADN construite par les code cycliques est ce il y a des logiciel qui détermine la forme du protéine du cette séquence en 3D et est ce que ce protéine est fonctionnelle ou non.
    merci

  17. Il est malheureusement à l’heure actuelle impossible de prédire la structure 3D d’une protéine à partir de sa seule séquence d’acides aminés (ou d’ADN qui code pour ces acides aminés). On peut toutefois déterminer avec assez de précision si une portion d’ADN code peut coder pour une protéine (notamment grâce à l’éventuelle présence d’un cadre ouvert de lecture).

  18. […] cher, progressant à une vitesse bien supérieure aux progrès de l’informatique. Par exemple billet de Philippe Julien, de moi (génome à $1000), et bon article récent dans Le […]

  19. […] y a deux ans et demi je vous parlais du présent, passé et futur du séquençage de l’ADN en vous présentant notamment, le minION, un nouvel appareil, qui promettait de fournir un […]

  20. This is very interesting, You’re a very skilled blogger. I’ve joined your feed and look forward to seeking more of your fantastic post. Also, I’ve shared your website in my social networks!

  21. Good day! I could have sworn I’ve been to this blog before but after checking through some of the post I realized it’s new to me. Anyways, I’m definitely delighted I found it and I’ll be book-marking and checking back frequently!

  22. […] http://www.biopsci.com/2012/02/22/sequencage-de-ladn-la-revolution-est-de-nouveau-en-marche/ […]

Laisser un commentaire