DNA-sequencing is het proces waarbij de volgorde (sequentie) van nucleotiden in het DNA wordt vastgesteld. DNA-sequencing omvat alle methoden en technieken die onderzoekers gebruiken om de volgorde van de vier basen te bepalen: adenine, guanine, cytosine en thymine. De opkomst van snelle sequencing-methoden sinds de jaren 2000 vormde de basis voor vele belangrijke biologische en medische ontwikkelingen.[1]
Kennis van DNA-sequenties is van essentieel belang voor fundamenteel biologisch onderzoek en wordt praktisch toegepast in andere disciplines, zoals klinische genetica, biotechnologie, forensisch onderzoek, virologie en fylogenetica. Door het genetisch materiaal tussen individuen te vergelijken kan bijvoorbeeld een ziekte worden gediagnosticeerd,[2] een misdadiger worden opgespoord, geïndividualiseerde medische zorg worden verleend en kunnen nieuw ontdekte organismen worden geïdentificeerd en gecatalogiseerd.[3]
De eerste DNA-sequenties werden begin jaren zeventig van de twintigste eeuw vastgesteld met behulp van eenvoudige methoden op basis van tweedimensionale chromatografie. Na de ontwikkeling van sequentiemethoden op basis van fluorescentie is DNA-sequencing veel goedkoper en ordes van grootte sneller geworden.[4] Moderne DNA-sequencingtechnologieën zijn noodzakelijk bij het ontcijferen van genomen. Soorten waarvan het genoom nauwkeurig bekend is zijn de mens, enkele modelorganismen zoals de zandraket (Arabidopsis) en de fruitvlieg (Drosophila), vee zoals het rund en landbouwgewassen zoals rijst en tarwe.
Geschiedenis
Ontdekking van DNA
In 1953 stelden James Watson en Francis Crick het klassieke helixmodel van DNA voor, gebaseerd op röntgenkristallografie die door Rosalind Franklin was vastgesteld. Het model stelde dat DNA uit twee strengen nucleotiden bestaat die in de vorm van een dubbele helix met elkaar vervlochten zijn. Elke streng bestaat uit vier nucleotiden – adenine (A), cytosine (C), guanine (G) en thymine (T) – waarbij een A op de ene streng via waterstofbruggen verbonden is met T, en C met G. Door middel van deze complementariteit kan de DNA-code tijdens replicatie in stand blijven en doorgegeven worden aan nieuwe cellen.[5]
Watson en Crick hadden nog niet verklaard hoe de nucleotidenvolgorde in DNA verbonden was met de synthese van eiwitten. Hier kwam verandering in toen Frederick Sanger in 1955 de volgorde van aminozuren (de eiwitsequentie) van insuline had vastgesteld. Zijn werk vormde het eerste bewijs dat eiwitten moleculen waren met een specifieke moleculaire opbouw. Crick woonde een aantal lezingen van Frederick Sanger bij in oktober 1954, en ontwikkelde een theorie die stelde dat de rangschikking van nucleotiden in het DNA de volgorde van aminozuren in eiwitten bepaalt, wat op zijn beurt de functie van een eiwit bepaalt. Crick publiceerde deze theorie in 1958.[6]
Vroege sequence-methoden
Het bepalen van de nucleotidevolgorde van DNA werd voor het eerst uitgevoerd in 1970 aan de Cornell-universiteit.[7] Onderzoekers maakten gebruik van een locatie-specifieke primer. De primer werd gebonden aan de DNA-keten en was een aanknopingspunt voor polymerisatie van gelabelde nucleotiden. Met deze eenvoudige methode kon een klein gedeelte van het DNA van een bacteriofaag gesequencet worden.[8][9]
Frederick Sanger nam vervolgens deze primer-extensiestrategie over om snellere DNA-sequentiemethoden te ontwikkelen in het MRC Centre (Cambridge) en publiceerde in 1977 een methode voor "DNA sequencing with chain-terminating inhibitors".[10] Verdere ontwikkelingen van deze sequence-methode gingen hand in hand met de gelijktijdige ontwikkeling van recombinant-DNA-technologie, waardoor DNA-monsters konden worden geïsoleerd uit andere bronnen dan enkel virussen.
Sequencing van gehele genomen
Het eerste genoom dat in zijn geheel is gesequencet was dat van de bacteriofaag φX174 in 1977.[11] Dit virus had een relatief kort genoom en het DNA was bovendien eenvoudig te zuiveren. In de jaren die volgden werd ook van andere virussen het genetisch materiaal ontcijferd. Voor het eerst in de geschiedenis kon men een volledige sequencing uitvoeren zonder voorafgaande kennis van het genetisch profiel van het betreffende organisme.[12]
Rond het jaar 2000 werden nieuwe methoden van DNA-sequencing ontwikkeld die sneller dan ooit tevoren de DNA-code konden ontcijferen. Deze methoden werden next-generation sequencing of high-throughput sequencing genoemd, om hen te onderscheiden van de conventionelere methoden, zoals Sanger sequencing. In tegenstelling tot first-generation sequencing, konden next-generation-technieken het gehele genoom van een organisme in één keer sequencen. Hiervoor wordt het DNA eerst gefragmenteerd in kleine stukken. Van deze stukken wordt dan de nucleotidevolgorde bepaald door middel van verschillende geautomatiseerde sequence-methoden. Via overlappende sequenties kan het gehele genoom worden gereconstrueerd.
Basismethoden
Maxam-Gilbert-sequencing
In 1977 publiceerden de moleculair biologen Allan Maxam en Walter Gilbert een nieuwe DNA-sequencingtechniek die gebaseerd was op de chemische modificatie van DNA en het afsplitsen van specifieke basen.[15] Deze techniek kwam ook wel bekend te staan onder de naam chemical sequencing. Met deze methode kon gezuiverd dubbelstrengs-DNA worden gesequencet zonder verdere klonering. Doordat men gebruik moest maken van radioactieve labeling en vanwege de technische complexiteit raakte deze techniek steeds minder in zwang.
Bij Maxam-Gilbert-sequencing wordt het 5'-uiteinde van het gezuiverde target-DNA radioactief gelabeld. Na behandeling met chemicaliën ontstaan er breuken bij een of twee van de vier nucleotidebasen in elk van de vier reacties (G, A+G, C, C+T). De concentratie van de modificerende chemicaliën wordt zo gehouden dat er gemiddeld één modificatie per DNA-molecuul optreedt. Op deze manier wordt een reeks gelabelde fragmenten gegenereerd: vanaf het radioactief gelabelde uiteinde tot de eerste "breuk" in het molecuul. De fragmenten in de vier reacties worden vervolgens naast elkaar op lengte gescheiden via gelelektroforese. De fragmenten in de gel kunnen zichtbaar gemaakt worden door autoradiografie. Het resultaat is een reeks donkere banden die elk overeenkomen met een radioactief gelabeld DNA-fragment, waaruit de sequentie kan worden afgeleid.[15]
Sanger-sequencing
Sanger-sequencing of didesoxysequencing werd ontwikkeld door Frederick Sanger en zijn team in 1977.[10][16] Deze sequencingtechniek werd al snel zeer populair, voornamelijk omdat de techniek relatief makkelijk uitvoerbaar was en redelijk betrouwbare resultaten gaf. Vanwege het gemak werd de Sanger-methode geautomatiseerd en groeide de methode uit tot het representatieve voorbeeld van first-generation sequencing.
Sanger-sequencing bestaat uit een speciale PCR gevolgd door gelelektroforese. Bij de speciale PCR worden, behalve het te onderzoeken DNA, DNA-polymerase, DNA-nucleotiden en primers, ook didesoxynucleotiden (ddA, ddC, ddG en ddT) toegevoegd. Dit zijn moleculen die op normale nucleotiden lijken, maar geen OH-groep hebben aan hun 3’-uiteinde. Hierdoor stopt de DNA-replicatie nadat er een didesoxynucleotide is ingebouwd. Aan elk van de vier didesoxynucleotiden is bovendien een stof gebonden die in een bepaalde kleur fluoresceert. Na replicatie zijn er heel veel gelabelde DNA-fragmenten ontstaan die in lengte verschillen.[17]
Door gelelektroforese kunnen deze DNA-fragmenten, onder invloed van elektrische spanning, in een gel op lengte worden gescheiden. De gel (van polyacrylamide) bestaat uit een netwerk van vezels die een moleculaire zeef vormen. De gel wordt in een bufferoplossing gelegd. Het mengsel van DNA-fragmenten wordt aangebracht aan de kant van de negatieve pool van de opstelling. Doordat DNA-fragmenten negatief geladen zijn, bewegen ze zich in de gel naar de positieve pool zodra er spanning op de gel wordt gezet. Hoe kleiner de DNA-fragmenten zijn, hoe sneller ze door de poriën in de gel kunnen bewegen. Na gelelektroforese, met in elk slotje een aparte didesoxynucleotide, kan men vanaf beneden aflezen wat de nucleotidevolgorde is. De gevormde sequentie leest men van 5’ naar 3’.[17]
Large-scale sequencing
Genoomassemblage
Sequencing van grote stukken DNA, bijvoorbeeld hele chromosomen of hele genomen, werd mogelijk vanaf de jaren 1990. Om het DNA van een volledig chromosoom te ontcijferen, is het noodzakelijk het DNA eerst op te splitsen in duizenden kleine fragmenten. Hiervoor gebruikt men vaak restrictie-enzymen of mechanische technieken die het DNA-molecuul uiteen doen vallen. Het gefragmenteerde DNA wordt vervolgens gekloneerd in een vector en daarna vermenigvuldigd in een bacteriële gastheer zoals Escherichia coli. Het DNA isoleert men uit de bacteriekolonies en van de fragmenten wordt individueel de sequentie bepaald. Met behulp van een computer kunnen de sequenties via overlappende delen worden samengevoegd, zodat uiteindelijk de sequentie van het hele chromosoom kan worden gereconstrueerd. Deze methode is op diverse punten geoptimaliseerd en daardoor nog steeds in gebruik.[18][19]
Het in elkaar zetten van genomen door overlappende stukken aaneen te sluiten heet genome assembly of in het Nederlands genoomassemblage.[20] Door elk stukje van het genoom meerdere keren te sequencen, bijvoorbeeld twintig keer, vergroot men de 'coverage' (leesdiepte) en kunnen polymorfismen, mutaties en leesfouten uit de uiteindelijke assembly worden weggefilterd. Het resultaat van een genoomassemblage is een consensussequentie en is meestal een nauwkeurige reconstructie van het grote stuk DNA.
De-novo-sequencing
De term "de-novo-sequencing" verwijst naar de technieken die men gebruikt om de sequentie te bepalen van een geheel onbekend DNA-molecuul. Vaak gaat het om het DNA van een nieuw ontdekte of niet eerder bestudeerde soort. Bij moderne sequencingmachines is er vaak sprake van een afweging (trade-off) tussen snelheid en nauwkeurigheid. Sommige technieken, zoals shotgun-sequencing, kunnen heel veel korte DNA-fragmenten (reads) sequencen, maar de assemblage ervan is complex (nauwkeurigheid is dus laag). Anderzijds zijn er ook technieken waarmee men langere stukken DNA kan sequencen, zodat de assemblage eenvoudig is, maar het sequencingsproces kost veel meer tijd. Voor de-novo-sequencing is het vaak gewenst om te kiezen voor een combinatie: korte reads, om veel data te genereren, en langere reads, om de resulterende gaten op te vullen.[21]
High-throughput sequencing
Vanaf de jaren 2000 werd sequencing in hoog tempo goedkoper en sneller. De ontwikkeling leidde tot wat men ook wel aanduidt met de term high-troughput sequencing of next-generation sequencing.[22] Dit is een verzamelnaam voor een aantal moderne technieken die gemeen hebben dat zij met buitengewoon hoge snelheden de DNA-code kunnen ontcijferen.[23] High-throughput methoden worden gebruikt voor genoomsequencing, het in kaart brengen van nieuwe soorten organismen en in fundamenteel genetisch onderzoek. Ook in de functionele biologie zijn ze essentieel, bijvoorbeeld voor profilering van het transcriptoom (RNA-seq), onderzoek naar DNA-eiwit-interacties (ChIP-sequencing) en karakterisering van het epigenoom.[24] Het herhaadelijk opnieuw sequencen (resequencing) van genomen is met behulp van moderne technieken steeds eenvoudiger geworden. Dankzij resequencing zijn onderzoekers meer te weten gekomen over individuele DNA-variaties binnen eenzelfde soort.
Verwacht wordt dat de kosten van DNA-sequencing door high-throughput-methoden verder verlaagd zullen worden. Enkele high-throughput-methoden zijn in staat om wel 500.000 sequentiebepalingen parallel uit te voeren in een enkele run.[25][26] Dergelijke technologieën hebben geleid tot de mogelijkheid om in slechts één dag het volledig menselijk genoom te sequencen.[27] In 2021 waren Illumina, Pacific Biosciences, Oxford Nanopore Technologies en ThermoFisher Scientific toonaangevende bedrijven voor de ontwikkeling van high-throughput-sequencers.[28]
↑Ray Wu Faculty Profile. Cornell University (4 maart 2009). Gearchiveerd op 4 maart 2009. Geraadpleegd op 25 januari 2020.
↑(en) Padmanabhan R, Jay E, Wu R (1974). Chemical synthesis of a primer and its use in the sequence analysis of the lysozyme gene of bacteriophage T4. Proceedings of the National Academy of Sciences of the United States of America71 (6): 2510–4. PMID4526223. PMC388489. DOI: 10.1073/pnas.71.6.2510.
↑(en) Onaga LA (2014). Ray Wu as Fifth Business: Demonstrating Collective Memory in the History of DNA Sequencing. Studies in the History and Philosophy of Science Part C 46: 1–14. PMID24565976. DOI: 10.1016/j.shpsc.2013.12.006.
↑ ab(en) Sanger F, Nicklen S, Coulson AR (1977). DNA sequencing with chain-terminating inhibitors. Proc. Natl. Acad. Sci. USA74 (12): 5463–77. PMID271968. PMC431765. DOI: 10.1073/pnas.74.12.5463.
↑(en) Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M (1977). Nucleotide sequence of bacteriophage phi X174 DNA. Nature265 (5596): 687–95. PMID870828. DOI: 10.1038/265687a0.
↑(en) Sanger F, Coulson AR (1975). A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase. J. Mol. Biol.94 (3): 441–48. PMID1100841. DOI: 10.1016/0022-2836(75)90213-2.
↑ ab(en) Alberts, B. (2015). Molecular Biology of The Cell, 6th edition. Garland Science, New York, "Chapter 8: Analyzing Cells, Molecules and Systems". ISBN 1317563751.
↑(en) Quail MA, Gu Y, Swerdlow H, Mayho M (2012). Evaluation and optimisation of preparative semi-automated electrophoresis systems for Illumina library preparation. Electrophoresis33 (23): 3521–28. PMID23147856. DOI: 10.1002/elps.201200128.
↑(en) Liao, X., Li, M., Zou, Y. et al. (2019). Current challenges and solutions of de novo assembly. Quant Biol.7, 90–109. DOI:10.1007/s40484-019-0166-9.
↑Straiton J, Free T, Sawyer A, Martin J (2019). From Sanger Sequencing to Genome Databases and Beyond. BioTechniques66 (2): 60–63. PMID30744413. DOI: 10.2144/btn-2019-0011.
↑(nl) Prinsen J. & van der Leij F. (2015). De bouwstenen van het leven. Wageningen Academic Publishers, p. 438. ISBN 978-90-8686-270-2.