La biología computacional es el uso de algoritmos y computadores para facilitar el entendimiento de problemas biológicos. Rama de las ciencias que estudia sistemas biológicos mediante el diseño, estudio y aplicación de algoritmos computacionales. Se focaliza en el análisis de datos, modelado matemático y simulación computacional.[1] Los sistemas estudiados abarcan desde la escala molecular a los ecosistemas, pasando por las células, el sistema nervioso, y los sistemas sociales. La biología computacional abarca varios campos ya establecidos: química, bioquímica, genética, matemáticas, ingeniería de sistemas, física, estadísticas, etc.
Introducción
La biología computacional es a veces definida como sinónimo de Bioinformática y a veces como una disciplina emparentada, pero distinta, de esta. El NIH define a ambas disciplinas como distintas aunque con cierto grado de solapamiento, según esta definición la bioinformática esta más relacionada con el desarrollo de herramientas computacionales con el fin de analizar y procesar datos y la biología computacional con el estudio por medios computacionales de sistemas biológicos.[1]
El análisis de secuencias suele comprender la identificación de una serie determinada de bases nucleotídicas, búsqueda de patrones o secuencias repetitivas e identificación de características genéticas y genómicas (ej.: genes que codifican proteínas o ARN, promotores, sitios de unión de factores de transcripción o de histonas, variantes genéticas etc.). Todos estos elementos tienen implicaciones estructurales y funcionales para los sistemas biológicos a diferentes niveles: ADN, cromatina, proteínas y su expresión, composición y organización celular o regulación de rutas metabólicas esenciales para el desarrollo celular o de un organismo completo. La creación de bases de datos como RefSeq, GenBank, Ensembl o ENCODE y de herramientas computacionales como BLAST, FASTA y ClustalW, para alineamiento de secuencias, o GLIMMER, GENSCAN, análisis de k-meros o métodos de aprendizaje automático supervisado, para la identificación de genes y otros elementos genómicos, han supuesto importantes avances en el campo de la bioinformática.[2][3][4][5]
El análisis de expresión génica se aborda, o bien, cuantificando los niveles celulares de ARNm, para lo cual los métodos experimentales más relevantes son RNA-Seq, microarrays de ADN, secuenciación de EST, entre otras, o bien, cuantificando los niveles de proteínas, mediante microarrays de proteínas y la espectrometría de masas. En ambos casos, la bioinformática tiene un papel clave en el desarrollo de herramientas y métodos de control de calidad de los datos obtenidos y asegurar una generación de datos robusta y reproducible. Debido a factores experimentales, es muy común obtener una variabilidad muy alta de señales, ya se correspondan con lecturas de secuencias de ARN o secuencias de proteínas, con un alto ratio de ruido de fondo/señales, siendo necesario limpiar este ruido para obtener señales claras y específicas de las moléculas de estudio. En estos métodos es fundamental la normalización de los datos para una cuantificación correcta de las secuencias; en RNA-Seq, el alineamiento de secuencias cortas de ARN contra un genoma de referencia presenta retos bioinformáticos específicos para no generar falsos positivos; o en espectrometría de masas, es necesario diferenciar secuencias originarias de proteínas con estructura, función y localización celular muy diferentes y de proporciones variables. Algunos ejemplos, entre muchos otros, de herramientas computacionales más relevantes para estos análisis son: STAR, para alineamiento de secuencias cortas obtenidas en RNA-Seq, Picard para control de calidad de secuencias, métodos de agrupamiento jerárquico con aprendizaje automático no supervisado para clasificar familias de proteínas y cuantificar su abundancia celular.[6][7][8]
El análisis de la regulación de la expresión génica también se puede abordar, o bien, identificando secuencias reguladoras y secuencias motivo asociadas en el ADN (ej.: promotores, enhancers, sitios de unión de factores de transcripción o de histonas etc.), o bien, identificando modificaciones epigenéticas (ej.: apertura de la cromatina y modificaciones de histonas), modificaciones post-transcripcionales del ARNm (ej.: splicing alternativo, adición de cadenas de poli-A etc.) y post-traduccionales de proteínas (ej.: adición de grupos funcionales: fosfato, metilo etc.) y modificaciones químicas del ADN (ej.: metilación). En estos casos, la bioinformática ha sido fundamental para el desarrollo de bases de datos de secuencias motivo y sitios de unión de factores de transcripción como JASPAR o TFBSshape y para el análisis de datos obtenidos por métodos experimentales de identificación de interacciones entre regiones reguladoras, mediante la comprensión de la organización tridimensional del ADN en el núcleo celular. Estos últimos se engloban en los denominados métodos de captura de la conformación de cromosomas o métodos 3C.[9][10][11]
La biología de sistemas es el análisis computacional de sistemas biológicos, desde el nivel molecular hasta poblaciones completas, vía el modelado matemático de sus componentes, sus interacciones intra- e intersistemas y propiedades emergentes.[12] Se caracteriza por basarse en un enfoque holístico o integral del estudio de los procesos biológicos, en contraposición del reduccionismo, el cual ha sido históricamente la aproximación más utilizada para comprender la organización biológica.[13] Si bien este campo abarca variedad de sistemas biológicos, los más típicamente estudiados son las rutas metabólicas, por ejemplo la glucólisis para la obtención de energía a partir de moléculas de glucosa a nivel celular, y de señalización y transducción de señales celulares, por ejemplo la vía de señalización del factor de crecimiento epidérmico (EGF) al unirse a su receptor diana y la consecutiva cascada de modificaciones bioquímicas a nivel celular.
Las ciencias ómicas, cuyos análisis pueden abarcar gran parte de un sistema biológico generando datos masivos, están frecuentemente asociadas con la biología de sistemas, especialmente la metabolómica, proteómica, interactómica o la genómica.[14][15][16] En metabolómica, uno de los métodos de estudio más relevante es el análisis de balance de flujo, centrado en construir y analizar un modelo de los flujos de diferentes metabolitos y otros componentes de una ruta metabólica, por ejemplo: los componentes intermedios de la glucólisis, que son modificados bioquímicamente por enzimas sucesivamente hasta generar un producto final.[17] A mayor escala, es posible crear modelos de simulación de redes metabólicas, en las que se describe la interrelación de genes, proteínas, metabolitos y otros componentes. Esto permite, dependiendo de la precisión del modelo, predecir el fenotipo resultante de todos estos mecanismos moleculares subyacentes.[18] En estos estudios son necesarias herramientas computacionales capaces de clasificar grupos asociados de metabolitos, calcular correlaciones entre estos grupos,[19] describir la cinética de reacciones enzimáticas, de acuerdo con la ley de masas,[20] y el uso de minería de textos para obtener información bibliográfica sobre las biomoléculas de interés.[21][22]
Un campo estrechamente relacionado con la biología de sistemas es la biología sintética, la cual se centra en mejorar sistemas biológicos que existen en la naturaleza (ej.: añadiendo nuevas funcionalidades a una enzima o una ruta metabólica) o en diseñar y construir nuevos sistemas biológicos mediante ingeniería genética (ej.: sintetizando artificialmente biomoléculas capaces de cumplir tareas específicas). Ambos campos se retroalimentan, junto con otros como la ingeniería de control y el diseño de biomateriales. Algunos de los temas de estudio más relevantes son la síntesis de novo de secuencias de genes, incluso de un genoma completo (ver caso del genoma mínimo de Mycoplasma laboratorium),[23] síntesis de factores de transcripción sintéticos[24] y creación de circuitos biológicos sintéticos capaces de regular la transcripción, traducción y regulación de la expresión génica.[25]
La genómica computacional es el estudio de la secuencia de los genomas, tanto de ADN como de ARN mediante herramientas computacionales y estadísticas. Dos de los tipos de estudios más frecuentes en este campo son el alineamiento de secuencias y la secuenciación del ADN. Para el primero, se han desarrollado diferentes algoritmos como el algoritmo Needleman-Wunsch y BLAST para comparar dos o más secuencias y cuantificar el grado de similitud entre estas.[26]
Para el segundo, existe una gran variedad de métodos experimentales desde la secuenciación por el Método de Sanger hasta los más utilizados actualmente de tipo "Next Generation Sequencing" o NGS. El constante progreso en el desarrollo y aplicación de estos métodos experimentales a llevado consigo un desarrollo paralelo de herramientas computacionales capaces de tratar conjuntos de datos cada vez más masivos. Etapas clave en un análisis de datos de secuenciación, como pueden ser la identificación de las bases nucleotídicas para la lectura de una secuencia, el alineamiento de esta contra un genoma de referencia o la identificación de variantes genéticas, requieren de potentes algoritmos como redes neuronales, algoritmos SVM o métodos de inferencia Bayesiana.[27][28]
El Proyecto Genoma Humano es un ejemplo de genómica computacional realizada a una escala internacional, en el cual se consiguió secuenciar por primera vez el 99% de la eucromatina del genoma humano con una precisión del 99.99% en el año 2003.[29] Tras posteriores estudios, se han publicado diferentes versiones del genoma humano, cada cual más completa que la anterior, hasta que en enero de 2022 el Consorcio Telomere-to-Telomere (T2T)[30] publicó los resultados de la secuenciación completa.[31][32]
Los biólogos computacionales usan un amplio rango de herramientas computacionales. Desde programas que se ejecutan en la línea de comandos a programas con entorno gráfico y aplicaciones web. Es común que los biólogos computacionales escriban su propio software. La complejidad de este software varía ampliamente desde pequeños _scripts_ para facilitar la comunicación entre programas o el análisis de datos a programas realmente complejos con miles de líneas de código.
Software de código abierto
Programas de Código abierto (y de Software libre) proveen de una plataforma ideal para el desarrollo de métodos biológicos. El código abierto permite que cualquier persona tenga acceso y pueda corregir y modificar el código fuente de un programa. La revista PLOS Computational Biology cita cuatro principales razones para utilizar código abierto en ciencia:
Reproducibilidad: Esto permite a los investigadores usar exactamente los mismos métodos para el análisis y/o modelado de datos biológicos.
Desarrollo más rápido: En vez de re-inventar la rueda los científicos pueden hacer uso de código preexistente y adaptarlo a sus necesidades.
Mayor calidad: Al hacer el código accesible a terceros, se hace más fácil que se encuentren y corrijan errores, que de otra forma podrían pasar inadvertidos.
Disponibilidad a largo plazo: El código abierto (y el software libre) no están atados a una empresa en particular o a patentes, lo que fomenta su diseminación a lo largo de la web y aumenta las chances de que el código este disponible en el futuro.[38]
↑Prjibelski, Andrey D.; Korobeynikov, Anton I.; Lapidus, Alla L. (1 de enero de 2019). Ranganathan, Shoba, ed. Sequence Analysis(en inglés). Academic Press. pp. 292-322. ISBN978-0-12-811432-2. Consultado el 27 de julio de 2022.