La seqüenciació d'ADN és cadascun dels mètodes de laboratori que tenen per objectiu determinar l'ordre dels nucleòtidsadenina, guanina, citosina, i timina en un fragment d'ADN. El coneixement de les seqüències d'ADN ha esdevingut indispensable per a la recerca biològica bàsica, per a altres branques de recerca que utilitzen la seqüenciació d'ADN, i per a nombrosos camps aplicats com el diagnòstic, la biotecnològica, la biologia forense i la sistemàtica biològica. L'arribada de la seqüenciació d'ADN ha accelerat significativament la recerca biològica. La rapidesa de la seqüenciació assolida amb la tecnologia de seqüenciació d'ADN moderna ha sigut fonamental per a la seqüenciació del genoma humà, en el Projecte Genoma Humà. Projectes relacionats, sovint col·laboracions científiques entre els continents, han generat seqüències d'ADN completes de molts genomes animals, de plantes, i de microbis.
Les primeres seqüències d'ADN van ser obtingudes a principis de la dècada del 1970 per investigadors acadèmics utilitzant mètodes laboriosos basats en cromatografies bidimensionals. Gràcies al desenvolupament de mètodes de seqüenciació basats en la cianina,[1] la seqüenciació d'ADN va esdevenir més senzilla i ordres de magnitud més ràpida.
Mètode de Sanger
El mètode de Sanger rep el nom del seu desenvolupador Frederick Sanger i fou publicat per primer cop en un article sobre la seqüenciació d'un fragment de 50 nucleòtids d'ADN del fag fl emprant ADN polimerasa dE.coli. L'article és signat per diversos col·laboradors del Medical Research Council Laboratory of Molecular Biology de Cambridge i de lInstitut für Biologie III, de la Universitat de Freiburg.[2]
El mètode de Sanger es basava, a diferència del de Maxam i Gilbert[3] desenvolupat pocs anys més tard, en la síntesi emprant enzims propis de la replicació de l'ADN. En aquells moments degut a la dificultat que suposava obtenir i purificar ADN polimerases i la gran quantitat que es necessitava per a seqüenciar fragments fou desplaçat pel mètode de Maxam-Gilbert, però amb l'aparició de la tècnica de reacció en cadena de la polimerasa ha desplaçat aquest i pràcticament la immensa majoria de seqüències d'ADN s'obtenen amb variacions del mètode de Sanger que impliquen l'ús de termocicladors.
Mètodes terminació de cadena
Com que el mètode de terminació de cadena és més eficient i utilitza menys productes químics tòxics i quantitats més baixes de radioactivitat que el mètode de Maxam i Gilbert, es va convertir ràpidament en el mètode d'elecció. El principi fonamental del mètode Sanger va ser l'ús de didesoxinucleòtids trifosfats (ddNTPs) com a terminadors de la síntesi de la cadena complementària d'ADN. Els didesoxinucleòtids són essencialment desoxinucleòtids, els “pilars” de l'ADN, als quals manca el grup hidroxil en el seu extrem 3', pel que l'elongació que efectua l'ADN polimerasa formant un enllaç fosfodièster és impossible.
El mètode original de terminació de cadena requereix un cadena "mare" d'ADN de cadena simple, un encebador d'ADN, una ADN polimerasa, els nucleòtids (A, T, C i G) i desoxinucleòtids marcats, que finalitzen l'elongació d'ADN radioactivament o amb fluorocroms, grups químics que emeten fluorescència a una determinada longitud d'ona. La mostra d'ADN es divideix en quatre reaccions de seqüenciació independents, que conté els quatre desoxinucleòtids (dATP, dGTP, dCTP i dTTP) i l'ADN polimerasa. Per a cada reacció s'afegeix només un dels quatre didesoxinucleòtids o terminadors (ddATP, ddGTP, ddCTP o ddTTP), que són els nucleòtids de terminació de cadena, que no tenen un grup hidroxil en la posició 3' necessari per a la formació d'un enllaç fosfodièster entre dos nucleòtids, de manera que finalitzaran l'elongació de la cadena d'ADN donant lloc a fragments d'ADN de longitud variable. La tècnica es fonamenta en el fet que la polimerasa és "incapaç" de diferenciar els desoxinucleòtids dels didesoxinucleòtids a l'hora d'incorporar-los a la cadena que està sintetitzant, pel que aquests són incorporats de forma "aleatòria", és a dir si s'ha d'incorporar adenina en una posició determinada per la complementarietat l'ADN pol pot incorporar dATP o ddATP només.
El resultat de la reacció es desnaturalitza aplicant escalfor, i separats per mida (amb una resolució d'un sol nucleòtid) mitjançant electroforesi en gel de poliacrilamida-urea amb presència d'agents desnaturalitzants amb cadascuna de les quatre reaccions s'executen en un dels quatre carrils individuals (línies A, T, G, C), les “bandes” d'ADN es visualitzen o revelen mitjançant autoradiografia o amb llum UV, i la seqüència d'ADN es pot “llegir” directament de la pel·lícula de raigs X o la imatge del gel. A la imatge de la dreta, pel·lícula de raigs X exposada al gel, i les bandes fosques corresponen a fragments d'ADN de diferents longituds. Una banda fosca en un carril és deguda a la presència d'un fragment d'ADN d'un mateix pes molecular que és el resultat de la terminació de la cadena després de la incorporació d'un didesoxinucleòtids (ddATP, ddGTP, ddCTP o ddTTP). Les posicions relatives de les diferents bandes entre els quatre carrils s'utilitzen per llegir (de baix a dalt) la seqüència d'ADN, ja que l'electroforesi ha separat de menor a major pes molecular els diferents fragments sintetitzats per la polimerasa.
Hi ha variacions tècniques en la manera de marcar els nucleòtids amb fòsfor radioactiu, o l'ús d'encebadors marcats a l'extrem 5' amb un marcador fluorescent. El marcatge dels encebadors facilita la lectura en un sistema òptic i fa l'anàlisi més ràpida i econòmica i en permet l'automatització. El posterior desenvolupament de Leroy Hood i els seus col·laboradors de ddNTPs marcats fluorescentment establí les bases per a la seqüenciació automatitzada d'ADN d'alt rendiment.[4][5]
Els mètodes de terminació de cadena han simplificat enormement la seqüenciació de l'ADN. Per exemple, s'han comercialitzat kits de terminació de cadena llestos per usar que contenen els reactius necessaris per a la seqüenciació, pre-alíquotes.
Les limitacions inclouen la unió no específica de la cartilla de l'ADN, que afecten necessita lectura de la seqüència d'ADN, i les estructures secundàries de l'ADN que afecten a la fidelitat de la seqüència.
Seqüenciació amb ddNTPs marcats (Dye terminator)
La seqüenciació amb terminadors marcats utilitza el marcatge dels ddNTPs, el que permet la seqüenciació en una sola reacció, en lloc de les quatre reaccions per separat com en el mètode de marcat d'encebadors. En la seqüència de terminadors marcats, cadascun dels quatre didesoxinucleòtids està marcat amb grups químics fluorescents, cadascun dels quals emeten llum en longituds d'ona diferents. Per la rapidesa en realitzar la reacció i la seva lectura, la seqüència de terminadors marcats és el pilar en la seqüenciació automatitzada.
Les seves limitacions inclouen efectes del marcador a causa de les diferències en la incorporació dels terminadors marcats en el fragment d'ADN, donant com a resultat pics desiguals en l'alçada i forma dels cromatogrames obtinguts en la interpretació de la cromatografia després de l'electroforesi capil·lar. Aquest problema s'ha corregit amb l'ús dels sistemes amb ADN polimerases i marcadors modificats que minimitzen la variabilitat. El mètode de seqüenciació de terminadors marcats, juntament amb analitzadors automàtics de seqüència d'ADN d'alt rendiment, s'està utilitzant per a la gran majoria dels projectes de seqüenciació.
Dificultats
Les dificultats comunes de la seqüència de l'ADN són la mala qualitat en els primers 15-40 bases de la seqüència i el deteriorament de la qualitat de la seqüenciació d'empremtes a partir de les 700-900 bases. Programari de base anomenada normalment dona una estimació de la qualitat per ajudar en la qualitat de tall.
En els casos en què els fragments d'ADN es clonen abans de seqüenciar, la seqüència resultant pot contenir parts del vector de clonació. En canvi, la clonació basada en la reacció en cadena de la polimerasa i tecnologies emergents de seqüenciació obtinguda a partir de piroseqüenciació sovint eviten l'ús de vectors de clonació. Recentment, la seqüenciació de Sanger d'un sol pas (amplificació i seqüenciació combinada) de mètodes com ara Ampliseq™ i SeqSharp™ han estat desenvolupades per permetre una ràpida seqüenciació de gens diana sense clonació o amplificació prèvia.[6][7]
Els mètodes actuals poden directament única seqüència d'ADN relativament curta (300-1000 nucleòtids de longitud) de fragments en una sola reacció. El principal obstacle per a la seqüenciació de fragments d'ADN per sobre d'aquest límit de mida és el poder de la separació insuficient per resoldre els grans fragments d'ADN que difereixen en longitud per un sol nucleòtid.
Automatització i preparació de mostres
Els instruments de seqüenciació automatitzada d'ADN (seqüenciadors d'ADN) poden seqüenciar fins a 384 mostres d'ADN en un sol lot (batch) en un màxim de 24 carreres al dia. Els seqüenciadors d'ADN duean terme l'electroforesi capil·lar per a la separació segons la mida, la detecció i registre de la fluorescència del fluorocrom, i la sortida de dades en forma de cromatogrames. Les reaccions de seqüenciació en termocicladors, la neteja i resuspensió en una solució tampó abans de carregar al seqüenciador es realitzen per separat. Una sèrie de paquets de programari comercial i no comercial pot retallar rastres d'ADN de baixa qualitat de forma automàtica. Aquests programes puntuen la qualitat de cada pic i eliminen els pics de la base de baixa qualitat (generalment situats en els extrems de la seqüència). La precisió d'aquest tipus d'algorismes és inferior a un examen visual per un operador humà, però suficient per al processament automatitzat de grans conjunts de dades de la seqüència.
Seqüenciació massiva
La tècnica de seqüenciació del DNA ha evolucionat de forma molt ràpida en els últims anys. El mètode descrit per Fred Sanger l'any 1977 basat en l'ús de dideoxinucleòtids terminals ha estat durant més de 25 anys el mètode de seqüenciació d'ADN dominant i va ser la tècnica usada per a la seqüenciació del genoma humà en el que es va anomenar mètode de seqüenciació de “primera generació”. Al llarg d'aquests 25 anys s'han produït successives millores i automatitzacions en el mètode descrit per Fred Sanger, des de l'eliminació dels nucleòtids marcats radioactivament per nucleòtids marcats amb un fluoròfor (1987) fins a l'ús de l'electroforesi capil·lar en lloc del gel de poliacrilamida (1999), donant lloc a una capacitat de seqüenciació d'aproximadament 3 Mbases per dia amb lectures de 900 nucleòtids de longitud i 384 mostres en paral·lel.
En els últims deu anys, però, l'escenari ha canviat radicalment gràcies a la introducció de les anomenades tècniques NGS (de l'anglés Next Generation Sequencing). El rendiment produït amb aquest tipus de tecnologies ha fet que sovint siguin anomenades tecnologies de seqüenciació massiva en paral·lel, on les milions de reaccions de seqüenciació simultànies estan separades espacialment. Les diferents tècniques NGS comparteixen una estratègia comú com és la preparació de la llibreria, el procés de seqüenciació pròpiament dit, la captació de la imatge i l'anàlisi de les dades. La combinació única de diferents estratègies en alguna d'aquestes fases distingeix un tipus de tecnologia de l'altra, i determina el tipus de dades produïdes per cadascuna de les diferents plataformes. Així, la preparació de la llibreria implica la immobilització dels fragments del DNA sobre una determinada superfície, cosa que permetrà la paral·lelització del procés en milers de milions de reaccions de seqüenciació. Diferents estratègies d'immobilització han donat lloc als mètodes de “segona generació” (aquells en els quals té lloc una amplificació clonal del fragment d'ADN), i als mètodes de “tercera generació” (o de molècula única). En el primer cas, dos mètodes són els més àmpliament usats per la majoria de plataformes de seqüenciació: la PCR en emulsió (emPCR) i l'amplificació en fase sòlida. Pel que fa al mètode de seqüenciació usat, les diferents plataformes es poden classificar segons fagin ús de l'estratègia CRT (de l'anglès Cyclic reversible termination), piroseqüenciació, SBL (de l'anglès Sequencing by ligation), temps real (de l'anglès Real Time) i monitoratge del canvi de pH. La metodologia de seqüenciació usada en les dues primeres estratègies ha donat lloc al que s'ha anomenat seqüenciació per síntesi (SBS, de l'anglès Sequencing By Synthesis), on la seqüència és llegida a mesura que la polimerasa incorpora cada base de forma individual. Comparades amb la tecnologia desenvolupada per Sanger, les tècniques NGS han suposat una sèrie d'avantatges com són: i) la construcció de la llibreria in vitro seguida de l'amplificació clonal ha eliminat el coll d'ampolla que suposa la transformació en Escherichia coli i el creixement de les colònies, ii) les tècniques NGS permeten una elevada paral·lelització del procés i iii) disminució dels volums de reacció amb la consegüent disminució del cost de seqüenciació. De la mateixa manera, l'evolució de les diferents plataformes existents ha portat a una millora pel que fa a la longitud total de la lectura obtinguda i al rendiment total del procés (mesurat com el nombre total de bases seqüenciades), donant lloc a lectures cada cop més llargues i un rendiment cada cop més elevat.
454 Roche
Aquesta plataforma de seqüenciació, va ser la primera introduïda comercialment l'any 2004 i amb la que es va seqüenciar el primer genoma usant tècniques NGS. El seu mètode de seqüenciació fa ús de la piroseqüenciació, on es detecta el pirofosfat alliberat durant la incorporació nucleotídica mitjançant una reacció luminescent. Així, durant el procés de seqüenciació, fragments únics de cDNA són units a una única perla per a l'amplificació clonal del fragment un una PCR en emulsió. Aquest procés va ser definit com “Un fragment, una perla, una lectura” (de l'anglès, “One fragment, one bead, one read”). D'aquesta manera, una vegada incorporat el nucleòtid corresponent per complementarietat de bases, s'allibera un pirofosfat que donarà lloc a una molècula d'ATP que serà usat per un enzim per a la producció de llum de forma proporcional a la quantitat de pirofosfats alliberats. Les diferents evolucions del sistema han permès arribar a la plataforma a una longitud de lectura de 700 bases amb un rendiment total de 0,7 Gbases per procés de seqüenciació. Donada l'elevada longitud de les seves lectures, 454 ha estat des dels seus inicis un molt bon sistema per a la seqüenciació ‘de novo'. El seu elevat preu per base seqüenciada així com l'aposta de la companyia pels mètodes de seqüenciació de lectura única, ha fet que aquest tipus de plataforma no tingui suport més enllà de 2016.
SOLiD
Sequencing by Oligo Ligation Detection (SOLiD) és un mètode de seqüenciació desenvolupat per Applied Biosystems (ara Life Technologies), comercialment disponible des de l'any 2006. El seu mètode de seqüenciació adopta l'anomenada tecnologia SBL, un mètode que usa la sensibilitat d'una DNA ligasa per identificar el nucleòtid present en una determinada posició d'una seqüència de DNA. Durant la construcció de la llibreria, aquesta seqüència de DNA s flanquejada per, com a mínim, un extrem de seqüència coneguda, i serà amplificada en una emPCR. Així, la reacció de seqüenciació consta de successius cicles de ligació, detecció i trencament entre la molècula de DNA i diferents sondes marcades amb fluoròfors, on cada color representa un parell de bases, en el que es va anomenar codificació de 2 bases o color space. Les contínues evolucions del sistema (5 des de 2007 a 2010) han donat lloc a la versió 5500XL W, amb un rendiment de 320 Gbases per procés de seqüenciació. Life Technologies és també la propietària d'una altra plataforma de seqüenciació com és Ion Torrent, sobre la qual Life Technologies sembla haver concentrat tots els seus esforços. Això, juntament amb la manca de desenvolupament del color space per part de la comunitat científica ha fet que la plataforma SOLiD estigui actualment en retrocés respecte a les seves competidores.
Illumina
Sense cap mena de dubte, Illumina és l'empresa dominant actualment en el món de la seqüenciació. Inicialment desenvolupat per Solexa, el seqüenciador Genome Analyzer (GA) adopta la tecnologia deTerminació Cíclica Reversible (CRT) per a seqüenciar una llibreria de DNA construïda seguint el protocol d'amplificació clonal en fase sòlida, una estratègia ja presentada l'any 1998 per Pascal Mayer i col·laboradors al 5è congrés d'Automatització en el Mapeig i Seqüenciació de DNA. Així, les molècules de DNA i els adaptadors són fixats en una superfície (la cel·la de flux, de l'anglès flow cell) i amplificades mitjançant una DNA polimerasa per donar lloc a colònies de DNA separades (clusters), cadascuna d'elles amb aproximadament 1.000 amplicons idèntics. Diversos milions de clusters poden ser amplificats a cadascun dels 8 carrils que existeixen en una única cel·la de flux. Posteriorment, la seqüenciació tindrà lloc per repetits cicles d'incorporació d'un únic nucleòtid marcat amb un fluoròfor, adquisició de la imatge i trencament del grup bloquejant a 3' del nucleòtid i de l'etiqueta fluorescent per permetre un nou cicle d'amplificació.
El seqüenciador GA de Solexa tenia un rendiment inicial d'una Gbase per procés de seqüenciació. Mitjançant millores en la polimerasa, tampons de reacció, la cel·la de flux i el software, l'any 2009 el seu rendiment va augmentar fins a 20 Gbases per procés de seqüenciació a l'agost, fins a 30 Gbases a l'octubre i fins a 50 Gbases al desembre d'aquell mateix any. A principis de 2010 Illumina va comercialitzar el seqüenciador HiSeq 2000, amb la mateixa estratègia de seqüenciació que el GA, i amb un rendiment de 200 Gbases per procés de seqüenciació, millorat fins als actuals 1000 Gbases.
Comparat amb els seus competidors, Illumina ofereix la seqüenciació més barata, amb un cost d'aproximadament 0.05 dòlar per milió de bases.
Ion Torrent (Life Techonologies)
La tecnologia desenvolupada per Ion Torrent en els seus seqüenciadors Ion Torrent Personal Machine (PGM) i Ion Proton ha donat lloc als primers seqüenciadors que no necessiten fluorescència ni càmera CCD, cosa que s'ha traduït en una velocitat de seqüenciació més elevada, un cost més baix i una mida més reduïda. Desenvolupada per Jonathan M. Rothberg, un dels fundadors de l'empresa 454 Life Sciences, la seva tecnologia de seqüenciació fa ús de la seqüenciació per síntesi sobre una llibreria de DNA construïda en una emPCR. A diferència de la resta de mètodes l'Ion Torrent detecta l'àtom d'H+ alliberat en el procés d'incorporació d'un nucleòtid mitjançant un sensor de pH, cosa que dona lloc a un pols elèctric que serà traduït en la seqüència de DNA, evitant així l'ús de qualsevol sistema òptic. L'existència d'un xip semiconductor on té lloc la construcció de la llibreria i la reacció de seqüenciació ha fet que sovint la tecnologia es conegui com a seqüenciació Ion semiconductora. D'entre les fites més importants d'aquest tipus de seqüenciador destaca la detecció del gen codificant d'una toxina a la soca O104:H4 d'Escherichia coli, que va causar 50 morts a principis de maig de 2011. Amb el seu seqüenciador Ion Proton, Life Technologies espera poder arribar a finals de 2014 a les 32 Gbases per procés de seqüenciació amb una longitud mitjana de lectura de 100 nucleòtids.
Pacific Biosciences
Pacific Biosciences és una companyia fundada l'any 2004 que ha desenvolupat una plataforma, el principi de seqüenciació de la qual es defineix com a seqüenciació en temps real d'una molècula única (SMRT, de l'anglès Single Molecule Real Time Sequencing) en el que s'ha anomenat mètode de “tercera generació”. Així, la nova versió del seu seqüenciador, comercialitzat l'octubre de 2013 anomenat Pac Bio RS II, ha donat lloc a lectures amb una longitud mitjana de 8,500 nucleòtids amb un màxim de 30,000 nucleòtids en una única lectura. Les prediccions de l'empresa són aconseguir una longitud mitjana de lectura de 20,000 nucleòtids l'any 2015.
↑Smith LM, Sanders JZ, Kaiser RJ, et al «Fluorescence detection in automated DNA sequence analysis». Nature, 321, 6071, 1986, pàg. 674–9. DOI: 10.1038/321674a0. PMID: 3713851. «We have developed a method for the partial automation of DNA sequence analysis. Fluorescence detection of the DNA fragments is accomplished by means of a fluorophore covalently attached to the oligonucleotide primer used in enzymatic DNA sequence analysis. A different coloured fluorophore is used for each of the reactions specific for the bases A, C, G and T. The reaction mixtures are combined and co-electrophoresed down a single polyacrylamide gel tube, the separated fluorescent bands of DNA are detected near the bottom of the tube, and the sequence information is acquired directly by computer.»