La cobertura (o profundidad) en la secuenciación del ADN es el número de lecturas únicas que incluyen un nucleótido dado en la secuencia reconstruida.[1][2] La secuenciación profunda se refiere al concepto general de apuntar a un alto número de lecturas únicas de cada región de una secuencia.[3]
Razón fundamental
Aunque la precisión de secuenciación para cada nucleótido individual es muy alta, la gran cantidad de nucleótidos en el genoma significa que si un genoma individual solo se secuencia una vez, habrá una cantidad significativa de errores de secuenciación. Además, muchas posiciones en un genoma contienen polimorfismos de un solo nucleótido (SNP) raros. Por lo tanto, para distinguir entre errores de secuenciación y SNP verdaderos, es necesario aumentar aún más la precisión de la secuencia mediante la secuenciación de genomas individuales un gran número de veces.
Secuenciación ultra profunda
El término "ultraprofundo" a veces también puede referirse a una mayor cobertura (> 100 veces), lo que permite la detección de variantes de secuencia en poblaciones mixtas.[4][5][6] En el caso extremo, los enfoques de secuenciación con corrección de errores, como la secuenciación de profundidad máxima, pueden hacer que la cobertura de una región determinada se acerque al rendimiento de una máquina de secuenciación, lo que permite coberturas de> 108.[6]
Secuenciación de transcriptomas
La secuenciación profunda de transcriptomas, también conocida como RNA-Seq, proporciona tanto la secuencia como la frecuencia de las moléculas de RNA que están presentes en un momento particular en un tipo de célula, tejido u órgano específico.[7] Contar el número de ARNm codificados por genes individuales proporciona un indicador del potencial de codificación de proteínas, un factor importante que contribuye al fenotipo.[8] La mejora de los métodos para la secuenciación de ARN es un área activa de investigación tanto en términos de métodos experimentales como computacionales.[9]
Cálculo
La cobertura promedio para un genoma completo se puede calcular a partir de la longitud del genoma original (G), el número de lecturas (N) y la longitud de lectura promedio (L) como. Por ejemplo, un genoma hipotético con 2.000 pares de bases reconstruidos a partir de 8 lecturas con una longitud media de 500 nucleótidos tendrá una redundancia de 2x. Este parámetro también permite estimar otras cantidades, como el porcentaje del genoma cubierto por lecturas (a veces también llamado amplitud de cobertura). Se desea una alta cobertura en la secuenciación de escopeta porque puede superar errores en la llamada y el ensamblaje de bases. El tema de la teoría de la secuenciación del ADN aborda las relaciones de tales cantidades.[2]
Cobertura física
A veces se hace una distinción entre cobertura de secuencia y cobertura física. Donde la cobertura de secuencia es el número medio de veces que se lee una base, la cobertura física es el número medio de veces que se lee o se amplía una base mediante lecturas emparejadas.[2][10][11]
Referencias
↑«Sequencing Coverage». illumina.com. Illumina education. Consultado el 8 de octubre de 2016.
↑ abcSims, David; Sudbery, Ian; Ilott, Nicholas E.; Heger, Andreas; Ponting, Chris P. (2014). «Sequencing depth and coverage: key considerations in genomic analyses». Nature Reviews Genetics15 (2): 121-132. PMID24434847. doi:10.1038/nrg3642.
↑Meyerson, M.; Gabriel, S.; Getz, G. (2010). «Advances in understanding cancer genomes through second-generation sequencing». Nature Reviews Genetics11 (10): 685-696. PMID20847746. doi:10.1038/nrg2841.