Cobertura (genética)

Una superposición del producto de tres ejecuciones de secuencia, con la profundidad de lectura indicada en cada punto.

La cobertura (o profundidad) en la secuenciación del ADN es el número de lecturas únicas que incluyen un nucleótido dado en la secuencia reconstruida.[1][2]​ La secuenciación profunda se refiere al concepto general de apuntar a un alto número de lecturas únicas de cada región de una secuencia.[3]

Razón fundamental

Aunque la precisión de secuenciación para cada nucleótido individual es muy alta, la gran cantidad de nucleótidos en el genoma significa que si un genoma individual solo se secuencia una vez, habrá una cantidad significativa de errores de secuenciación. Además, muchas posiciones en un genoma contienen polimorfismos de un solo nucleótido (SNP) raros. Por lo tanto, para distinguir entre errores de secuenciación y SNP verdaderos, es necesario aumentar aún más la precisión de la secuencia mediante la secuenciación de genomas individuales un gran número de veces.

Secuenciación ultra profunda

El término "ultraprofundo" a veces también puede referirse a una mayor cobertura (> 100 veces), lo que permite la detección de variantes de secuencia en poblaciones mixtas.[4][5][6]​ En el caso extremo, los enfoques de secuenciación con corrección de errores, como la secuenciación de profundidad máxima, pueden hacer que la cobertura de una región determinada se acerque al rendimiento de una máquina de secuenciación, lo que permite coberturas de> 108.[6]

Secuenciación de transcriptomas

La secuenciación profunda de transcriptomas, también conocida como RNA-Seq, proporciona tanto la secuencia como la frecuencia de las moléculas de RNA que están presentes en un momento particular en un tipo de célula, tejido u órgano específico.[7]​ Contar el número de ARNm codificados por genes individuales proporciona un indicador del potencial de codificación de proteínas, un factor importante que contribuye al fenotipo.[8]​ La mejora de los métodos para la secuenciación de ARN es un área activa de investigación tanto en términos de métodos experimentales como computacionales.[9]

Cálculo

La cobertura promedio para un genoma completo se puede calcular a partir de la longitud del genoma original (G), el número de lecturas (N) y la longitud de lectura promedio (L) como. Por ejemplo, un genoma hipotético con 2.000 pares de bases reconstruidos a partir de 8 lecturas con una longitud media de 500 nucleótidos tendrá una redundancia de 2x. Este parámetro también permite estimar otras cantidades, como el porcentaje del genoma cubierto por lecturas (a veces también llamado amplitud de cobertura). Se desea una alta cobertura en la secuenciación de escopeta porque puede superar errores en la llamada y el ensamblaje de bases. El tema de la teoría de la secuenciación del ADN aborda las relaciones de tales cantidades.[2]

Cobertura física

A veces se hace una distinción entre cobertura de secuencia y cobertura física. Donde la cobertura de secuencia es el número medio de veces que se lee una base, la cobertura física es el número medio de veces que se lee o se amplía una base mediante lecturas emparejadas.[2][10][11]

Referencias

  1. «Sequencing Coverage». illumina.com. Illumina education. Consultado el 8 de octubre de 2016. 
  2. a b c Sims, David; Sudbery, Ian; Ilott, Nicholas E.; Heger, Andreas; Ponting, Chris P. (2014). «Sequencing depth and coverage: key considerations in genomic analyses». Nature Reviews Genetics 15 (2): 121-132. PMID 24434847. doi:10.1038/nrg3642. 
  3. Mardis, Elaine R. (1 de septiembre de 2008). «Next-Generation DNA Sequencing Methods». Annual Review of Genomics and Human Genetics 9 (1): 387-402. ISSN 1527-8204. PMID 18576944. doi:10.1146/annurev.genom.9.081307.164359. 
  4. Ajay, Subramanian S.; Parker, Stephen C. J.; Abaan, Hatice Ozel; Fajardo, Karin V. Fuentes; Margulies, Elliott H. (1 de septiembre de 2011). «Accurate and comprehensive sequencing of personal genomes». Genome Research (en inglés) 21 (9): 1498-1505. ISSN 1088-9051. PMC 3166834. PMID 21771779. doi:10.1101/gr.123638.111. 
  5. Mirebrahim, Hamid; Close, Timothy J.; Lonardi, Stefano (15 de junio de 2015). «De novo meta-assembly of ultra-deep sequencing data». Bioinformatics 31 (12): i9-i16. ISSN 1367-4803. PMC 4765875. PMID 26072514. doi:10.1093/bioinformatics/btv226. 
  6. a b Jee, J.; Rasouly, A.; Shamovsky, I.; Akivis, Y.; Steinman, S.; Mishra, B.; Nudler, E. (2016). «Rates and mechanisms of bacterial mutagenesis from maximum-depth sequencing». Nature 534 (7609): 693-696. Bibcode:2016Natur.534..693J. PMC 4940094. PMID 27338792. doi:10.1038/nature18313. 
  7. Malone, John H.; Oliver, Brian (1 de enero de 2011). «Microarrays, deep sequencing and the true measure of the transcriptome». BMC Biology 9: 34. ISSN 1741-7007. PMC 3104486. PMID 21627854. doi:10.1186/1741-7007-9-34. 
  8. Hampton, Marshall; Melvin, Richard G.; Kendall, Anne H.; Kirkpatrick, Brian R.; Peterson, Nichole; Andrews, Matthew T. (28 de octubre de 2011). «Deep Sequencing the Transcriptome Reveals Seasonal Adaptive Mechanisms in a Hibernating Mammal». PLOS ONE (en inglés) 6 (10): e27021. ISSN 1932-6203. PMC 3203946. PMID 22046435. doi:10.1371/journal.pone.0027021. 
  9. Heyer, Erin E.; Ozadam, Hakan; Ricci, Emiliano P.; Cenik, Can; Moore, Melissa J. (9 de enero de 2015). «An optimized kit-free method for making strand-specific deep sequencing libraries from RNA fragments». Nucleic Acids Research (en inglés) 43 (1): e2-e2. ISSN 0305-1048. PMC 4288154. PMID 25505164. doi:10.1093/nar/gku1235. 
  10. Meyerson, M.; Gabriel, S.; Getz, G. (2010). «Advances in understanding cancer genomes through second-generation sequencing». Nature Reviews Genetics 11 (10): 685-696. PMID 20847746. doi:10.1038/nrg2841. 
  11. Ekblom, Robert; Wolf, Jochen B. W. (2014). «A field guide to whole‐genome sequencing, assembly and annotation». Evolutionary Applications 7 (9): 1026-42. PMC 4231593. PMID 25553065. doi:10.1111/eva.12178.