Cytoscape

Cytoscape
Información general
Tipo de programa software libre
Lanzamiento inicial 2002
Software afectado 8
Licencia GNU Lesser General Public License
Información técnica
Programado en Java
Plataformas admitidas máquina virtual Java
Versiones
Última versión estable 3.10.324 de octubre de 2024
Archivos legibles
Archivos editables
  • Simple interaction file
  • eXtensible Graph Markup and Modeling Language
  • GraphML format
  • PSI MI format
  • Cytoscape Exchange Format
Enlaces

Cytoscape es un componente de software fundamental que es utilizado en campos de investigación de ramas como biología, sociología, informática, entre otras. Este software cuenta con aplicaciones en sitios web y servidores permitiendo a usuarios interactuar con diversas redes de visualización de datos y análisis de redes. Cytoscape es mayormente utilizado para crear visualizaciones interactivas, representación de datos o almacén de datos de redes de interacción proteína-proteína (IPP) [1]​.

Red general de interacción proteína-proteína de Arabidopsis thaliana extraída de IntAct, modificada en Cytoscape 3.10.3.

Historia

Cytoscape se creó originalmente en el Instituto de Biología de Sistemas de Seattle en 2002. Actualmente, lo está desarrollando un consorcio internacional de desarrolladores de código abierto. Cytoscape se hizo público inicialmente en julio de 2002 (v0.8); la segunda versión (v0.9) estuvo disponible en noviembre de 2002 y la v1.0 se lanzó en marzo de 2003. La versión 1.1.1 es la última versión estable de la serie 1.0. La versión 2.0 se lanzó inicialmente en 2004; Cytoscape 2.8.3, la versión final 2.xx, se lanzó en mayo de 2012. El lanzamiento del Cytoscape v3 en el 2014 mejoró la compatibilidad con aplicaciones de complementos de la tiendad de extensiones, y se han centrado en actualizar funciones como los estilos visuales (VizMapper), filtrado rápido de nodos, la capacidad de la red, la velocidad en general y la interfaz. En la última versión 3.10.3 lanzada en octubre del 2024 han implementado etiquetas del panel de estilo, además de imponer el uso de nombres de columnas en todas las redes, correcciones del cuadro de diálogo, generador de ecuaciones, entre otras mejoras[2]​.


Conceptos clave para el análisis de redes biológicas

Nodo

Es la esquematización más simple como un punto que puede representar, por ejemplo, una proteína siendo un nodo y las proteínas que interactúan con ella se representan como nodos adyacentes conectados por una línea que refleja la interacción [3]​.

Dentro de las redes de interacción se puede determinar la importancia de un nodo de acuerdo con las medidas más utilizadas como la centralidad de grado [4]​. Cuantas más interacciones tenga un nodo, más importante será para la red, lo que se define como un nodo central [5][6]​.

Interacción

Es la representación lineal de la conexión entre nodos, también llamado vértice. Una interacción entre nodos representa cómo estos, dependiendo de su entidad biológica, se relacionan entre sí para participar en un proceso biológico o en algún rool ecológico. Las interacciones también nos permiten formular hipótesis analíticas acerca de las funciones de proteínas, genes o entidades biológicas a partir de las interacciones de estos con sus primeros vecinos [7]​.

Redes de interacción

Red de genes de Arabidopsis thaliana extraída de IntAct y modificada en Cytoscape versión 3.10.3. Cada nodo contiene el identificador del Instituto Europeo de Bioinformática (EBI). En esta figura se muestran los elementos que conforman una red de interacción y un ejemplo de un nodo central.

Las redes de interacción nos ayudan a comprender las estructuras y funciones de sistemas complejos, brindando información de patrones identificables, predicción de comportamientos de sistemas, análisis de estabilidad, entre otras. Un ejemplo son las redes genéticas, que permiten estudiar patrones de conexión para identificar genes clave en rutas metabólicas. Por otra parte, en redes ecológicas, se puede analizar una red trófica para revelar datos como la importancia de ciertas especies o interacción entre especie. De igual manera, también es posible estudiar las redes de interacción proteína-proteína, las cuales representan un total de proteínas que se relacionan modularmente, es decir, que interactúan entre sí para un determinado proceso bioquímico[8]​.

Primeros y segundos vecinos

Una red de interacción contiene nodos centrales, los nodos que interactúan directamente con los nodos centrales se conocen como primeros vecinos, los segundos vecinos son los nodos que interactúan con los primeros vecinos, pero no directamente con el nodo central [9]​.

Topología de redes      

Son las diferentes estructuras de comunicación que se pueden presentar durante la organización de una red. Cada tipo de topología nos indica que tipo de flujo de información se está llevando a cabo. Existen varios tipos de topología:

Topología de redes de interacción. a) La organización más pequeña muestra información sobre nodos únicos. b) Con tres o más nodos hace referencia a motivos. c) Los grupos más grandes de nodos se denominan módulos. d) En conjunto las organizaciones anteriores forman parte de la organización global de una red.
  • Nodo: Es la estructura más sencilla de una red que consta de un solo nodo.
  • Motivo: Es la representación de patrones entre conexiones específicas que hay entre un pequeño grupo de nodos, estos motivos tienden a presentar funciones o regular procesos.
  • Módulos: Son distintos grupos de nodos que están densamente conectados entre sí. Estos módulos representan unidades funcionales dentro de una gran red; la participación de distintos nodos a manera de módulos indica que participan en el mismo proceso.
  • Organización global: es la estructura global de una red y esquematiza cómo los nodos se vinculan para formar motivos, los motivos se combinan para formar módulos y los módulos se unen para formar toda la red. [10]


Tipos de análisis de las redes

El análisis de redes permite identificar características estructurales fundamentales que revelan información sobre la importancia relativa de los nodos y sus conexiones. A continuación, se describen dos de los análisis más utilizados en Cytoscape.

Grado

El Grado (Degree) es el número de interacciones que tiene un nodo con otros nodos, si un nodo tiene un grado de 4 significa que está conectado a 4 nodos. Cuanto mayor sea el grado de conexión de un nodo, más central será y se puede relacionar con la importancia biológica de un gen o proteína en procesos específicos [5][6]​.

Centralidad de Clique Máximo (MCC, por sus siglas en inglés)

Es un método de análisis topológico que se utiliza para identificar nodos centrales basado en cuántas “cliques máxima "contiene cada nodo. En este sentido, una “clique máxima” se define como un subconjunto de nodos que están altamente conectados entre sí, y cuyo tamaño depende del número de nodos que contiene. La diferencia entre el Degree y el MCC, es que cada nodo puede formar parte de distintos cliques, y el MCC mide que tan importante es un nodo de acuerdo con su papel en el clique más grande. Este análisis permite identificar proteínas centrales dentro de una red de interacciones[11]​.

Tabla de comandos básicos para la construcción de redes biológicas

Para la creación de redes biológicas es necesario tener conocimientos previos sobre bases de datos que recopilan información acerca de interacciones que se desean estudiar. En algunos casos es posible extraer los datos de las interacciones de la red completa de un organismo o específicamente de módulos asociados a un mecanismo en particular. La información básica con la que se debe contar para la construcción de una red, son los nodos y el tipo de interacción que los relaciona. En algunas bases de datos es posible obtener información adicional, con la finalidad de profundizar en los análisis que se estén realizando. A continuación, se describen las cuatro formas de crear redes en Cytoscape:

Tipo de construcción Descripción Comando Ejemplo

Importando archivos de la red preexistentes con formato fijo.

Es necesario tener previamente descargado el archivo de la red (bases de datos) en alguno de estos formatos: SIF, GML, XGMML, para que Cytoscape pueda desplegar correctamente la red.

 

Hacer clic en la pestaña de:

File→ Import→ Network from file

Esto permitirá diseñar y agregar atributos específicos a la red de acuerdo con las necesidades que requiera el trabajo.

Importando archivos de Excel preexistentes.

Se realiza con tablas de atributos, que son archivos de Excel donde el usuario elige las columnas que representan los nodos y se asignan características a cada uno de los nodos de la red. Este tipo de tablas facilita el análisis de las redes cuando se evalúan diferentes características asociadas.

1.- Hacer clic en la pestaña de File → Import → Network from file

En la figura se muestra la tabla mínima para construir una red, esta debe contener al menos dos columnas, una llamada SOURCE y otra llamada TARGET para que Cytoscape sea capaz de crear una red con interacciones entre al menos dos nodos.

Como resultado se obtiene la red con el formato predeterminado.


Importando desde bases de datos públicas

Permite importar redes desde bases de datos públicas. También hay una barra de búsqueda en la parte superior en el panel de control para acceder directamente a las bases de datos File→ Import→ Network from Public Databases





En la figura se muestra desde el panel de control como importar una red desde una base de datos

Creando una red vacía y agregar nodos y bordes manualmente Se puede crear una red nueva agregando nodos y vértice de forma manual. Puede editar una red existente utilizando el mismo proceso. Para empezar a construir una red:

File → New Network → Empty

Para agregar nodos a la red, hacer cliq derecho


Add Node


Para editar los nodos

Edit Edge

Edit Add Edge

Edit Cut

EditDelete

Edit Undo

En la figura se observa cómo añadir un nodo de forma manual

 

Para editar cada uno de los nodos de forma manual
           

Para información más detallada consulte el manual de Cytoscape

Extensiones

Por medio del programa Cytoscape es posible descargar extensiones, que son aplicaciones de otros programas o bases de datos que permitien extraer información adicional, ya sea relacionada al tipo de interacción o características de cada nodo dentro de una red. También son útiles para realizar análisis específicos para la interpretación de resultados y encontrar proteínas hub. Cytoscape cuenta con dos extensiones predeterminadas, NDEX y PSICQUIC que a continuación se describen:

  • NDEx: Es una plataforma en línea que almacena y gestiona redes biológicas. Cytoscape te permite visualizar, analizar y modificar las redes almacenadas en NDEx desde las herramientas propias disponibles en el programa[12]​.
  • PSICQUIC: Es una herramienta que permite acceder a datos de interacciones biomoleculares a través de una interfaz estandarizada. Esta extensión reúne información de múltiples bases de datos sobre interacciones entre proteínas, genes y ARN, facilitando la descarga y consulta de datos de manera unificada [13]​. Gracias a PSICQUIC, los usuarios de Cytoscape pueden integrar y analizar datos de interacciones biomoleculares de diversas fuentes, simplificando el proceso de obtención y análisis de información relevante para estudios en biología molecular.

Existen una gran diversidad de extensiones dentro para Cytoscape que puedes obtener desde la App Store. La selección de las aplicaciones dependerá del objetivo de cada investigación.

Otras herramientas para construir redes biológicas

También existen otros programas con los cuales es posible construir redes de interacción biológicas. Algunos de ellos contienen información especializada en un organismo en particular o para algún tipo de interacción específica. A continuación, se proporciona una breve descripción de estas herramientas.

Herramientas Descripción Características principales Referencias


STRING

Recurso que integra datos de fuentes como KEGG y Gene Ontology. Te proporciona información sobre interacciones proteicas, tanto predichas como con evidencia experimental Permite construir y analizar redes de interacción de proteínas. [14]



(Szklarczyk D. et al., 2019)


BioGRID

Base de datos de libre acceso sobre interacciones físicas y genéticas. Permite al usuario crear gráficos personalizados de proteínas y genes, integrados con el sistema de visualización Osprey, que está vinculado dinámicamente a BioGRID. [15]


(Stark C. et al., 2006)


GeneMANIA

Interfaz web para generar hipótesis sobre la función de genes y analizar listas de genes.


Facilita la construcción de redes de interacción de proteínas y genes, y la priorización de genes para ensayos funcionales.[16]


(Warde-Farley D. et al., 2010)


IntAct

Base de datos de código abierto para datos de interacción molecular.


Permite construir redes a partir de datos obtenidos de literatura científica o de envíos directos de usuarios.[17]


(European Bioinformatics Institute, 2023).

Referencias

  1. Franz, M., Lopes, C. T., Fong, D., Kucera, M., Cheung, M., Siper, M. C., Huck, G., Dong, Y., Sumer, O., & Bader, G. D. (2023). Cytoscape.js  update: a graph theory library for visualization and analysis. Bioinformatics (Oxford, England), 39(1). https://doi.org/10.1093/bioinformatics/btad031
  2. Cytoscape User Manual (cytoscape.org), Biostatistics Resource
  3. Wagner A. (2003). How the global structure of protein interaction networks evolves. Proc Biol Sci. Mar 7;270(1514):457-66. https://doi.org/10.1098/rspb.2002.2269
  4. Vignery K, Laurier W. (2020). A methodology and theoretical taxonomy for centrality measures: What are the best centrality indicators for student networks? PLoS ONE 15(12): e0244377. https://doi.org/10.1371/journal.pone.0244377
  5. a b Winterbach, W., Mieghem, PV, Reinders, M. et al. (2013) Topology of molecular interaction networks. BMC Syst Biol 7, 90 https://doi.org/10.1186/1752-0509-7-90
  6. a b Milenković, T., Memišević, V., Bonato, A., & Pržulj, N. (2011). Dominating biological networks. PloS one, 6(8), e23016.  https://doi.org/10.1371/journal.pone.0023016
  7. Titz, B., Schlesner, M., & Uetz, P. (2004). What do we learn from high-throughput protein interaction data? Expert Review of Proteomics, 1(1), 111–121. https://doi.org/10.1586/14789450.1.1.111
  8. Yilmaz, M.; Paulic, M.; Seidel, T. (2022). Interactome of Arabidopsis thaliana. Plantas (Basilea, Suiza), 11(3), 350. https://doi.org/10.3390/plants11030350
  9. Albert, I., & Albert, R. (2004). Conserved network motifs allow protein-protein interaction prediction. Bioinformatics (Oxford, England), 20(18), 3346–3352. https://doi.org/10.1093/bioinformatics/bth402
  10. Gulbahce, N., y Lehmann, S. (2008). El arte de la detección de comunidades. BioEssays: News and Reviews in Molecular, Cellular and Developmental Biology, 30 (10), 934–938. https://doi.org/10.1002/bies.20820
  11. Wang, M., Wang, H., & Zheng, H. A. (2022) Mini Review of Node Centrality Metrics in Biological Networks. International Journal of Network Dynamics and Intelligence. 1(1), 99–110. https://doi.org/10.53941/ijndi0101009
  12. Pratt, D., Chen, J., Welker, D., Rivas, R., Pillich, R., Rynkov, V., Ono, K., Miello, C., Hicks, L., Szalma, S., Stojmirović, A., Dobrin, R., Braxenthaler, M., Demchak, B. e Ideker, T. (2015). El intercambio de datos en red. Sistemas celulares. The Network Data Exchange ,1 (4), 302. https://doi.org​​/10.1016 /j.celdas
  13. Aranda, B., Blankenburg, H., Kerrien, S. et al. (2011). PSICQUIC and PSISCORE: accessing and scoring molecular interactions. Nat Methods 8, 528–529. https://doi.org/10.1038/nmeth.1637
  14. Szklarczyk D, Gable AL, Lyon D, Junge A, Wyder S, Huerta-Cepas J, Simonovic M, Doncheva NT, Morris JH, Bork P, Jensen LJ, Mering CV. (2019). STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Res. Jan 8;47(D1):D607-D613. https://doi.org/10.1093/nar/gky1131
  15. Stark C, Breitkreutz BJ, Reguly T, Boucher L, Breitkreutz A, Tyers M.  (2006). BioGRID: a general repository for interaction datasets. Nucleic Acids Res. (Database issue):D535-9. https://doi.org/10.1093/nar/gkj109
  16. Warde-Farley D, Donaldson SL, Comes O, Zuberi K, Badrawi R, Chao P, Franz M, Grouios C, Kazi F, Lopes CT, Maitland A, Mostafavi S, Montojo J, Shao Q, Wright G, Bader GD, Morris Q. (2010). The GeneMANIA prediction server: biological network integration for gene prioritization and predicting gene function. Nucleic Acids Res. (Web Server issue):W214-20. https://doi.org/10.1093/nar/gkq537
  17. Bioinformatics Institute. (2023). IntAct Molecular Interaction Database [Base de datos]. European Bioinformatics Institute. https://www.ebi.ac.uk/intact/home

Enlaces externos