Um mapa de contato de proteína representa a distância entre todos os possíveis pares de resíduos de aminoácidos de uma estrutura de proteína tridimensional usando uma matriz bidimensional binária. Para dois resíduos e , o elemento da matriz é 1 se os dois resíduos estão mais próximos do que um limiar predeterminado e 0 caso contrário. Várias definições de contato foram propostas: A distância entre o átomo Cα - Cα com limiar de 6-12 Å; distância entre átomos Cβ - Cβ com limiar de 6-12 Å (Cα é usado para Glicina); e distância entre os centros de massa da cadeia lateral.
Resumo
Os mapas de contato fornecem uma representação mais reduzida de uma estrutura de proteína do que suas coordenadas atômicas 3D completas. A vantagem é que os mapas de contato são invariáveis a rotações e translações. Eles são mais facilmente previstos por métodos de aprendizado de máquina. Também foi demonstrado que sob certas circunstâncias (por exemplo, baixo teor de contatos erroneamente previstos) é possível reconstruir as coordenadas 3D de uma proteína usando seu mapa de contato. [1][2]
Os mapas de contato também são usados para sobreposição de proteínas e para descrever a semelhança entre as estruturas das proteínas. [3] Eles são previstos a partir da sequência de proteínas ou calculados a partir de uma determinada estrutura.
Previsão do mapa de contatos
Com a disponibilidade de grandes números de seqüências genômicas, torna-se viável analisar tais seqüências para coevolução de resíduos. A eficácia desta abordagem resulta do fato de que uma mutação na posição i de uma proteína é mais provável de estar associada a uma mutação na posição j do que a uma retromutação em i se ambas as posições estiverem funcionalmente acopladas (por exemplo, participando de um domínio enzimático, ou por ser adjacente em uma proteína dobrada, ou ainda por ser adjacente em um oligômero dessa proteína). [4]
Existem vários métodos estatísticos para extrair tais pares de resíduos acoplados de um alinhamento de múltiplas sequências: frequências observadas versus esperadas de pares de resíduos (OMES); [5] a correlação de substituição baseada em McLachlan (McBASC); [6] análise estatística de acoplamento; Métodos baseados em Informação Mútua (MI); [7] e recentemente a análise de acoplamento direto (DCA). [8][9]
Os algoritmos de aprendizado de máquina foram capazes de aprimorar os métodos de análise de MSA, especialmente para proteínas não homólogas (ou seja, MSA rasas). [10]
Gráfico HB
O conhecimento da relação entre a estrutura de uma proteína e seu comportamento dinâmico é essencial para a compreensão da função da proteína. A descrição de uma estrutura tridimensional de proteína como uma rede de interações de ligação de hidrogênio (gráficoHB) [11] foi introduzida como uma ferramenta para explorar a estrutura e função das proteínas. Ao analisar a rede de interações terciárias, a possível disseminação de informações dentro de uma proteína pode ser investigada.
Elementos de estrutura secundária no gráfico HB
Nas representações do gráfico HB, os padrões característicos dos elementos da estrutura secundária podem ser facilmente reconhecidos, como segue:
As hélices podem ser identificadas como tiras diretamente adjacentes à diagonal.
Folhas-beta antiparalelas aparecem no gráfico HB como uma diagonal cruzada.
Folhas-beta paralelas aparecem no gráfico HB como paralelas à diagonal.
Os laços aparecem como quebras na diagonal entre os motivos de folha beta na diagonal cruzada.
Exemplos de uso
Citocromo P450s
O citocromo P450s (P450s) são enzimas xenobióticas metabolizadoras de hemo ligadas à membrana que usam oxigênio molecular e elétrons da NADPH citocromo P450 redutase para oxidar seus substratos. CYP2B4, um membro da família do citocromo P450, é a única proteína dentro desta família cuja estrutura de raios X na forma aberta 11 e fechada 12 foi publicada. A comparação das estruturas abertas e fechadas das estruturas CYP2B4 revela rearranjo conformacional em larga escala entre os dois estados, com a maior mudança conformacional em torno dos resíduos 215-225, que é amplamente aberto no estado livre de ligante e fechado após a ligação do ligante; e a região ao redor do loop C próximo ao heme.
Examinação do gráfico HB do estado fechado e aberto do CYP2B4 revelou que o rearranjo das ligações de hidrogênio terciárias estava em excelente acordo com o conhecimento atual do ciclo catalítico do citocromo P450.
↑Pietal, MJ.; Bujnicki, JM.; Kozlowski, LP. (Jun 2015). «GDFuzz3D: a method for protein 3D structure reconstruction from contact maps, based on a non-Euclidean distance function.». Bioinformatics. 31 (21): 3499–505. PMID26130575. doi:10.1093/bioinformatics/btv390
↑Vassura M, Margara L, Di Lena P, Medri F, Fariselli P, Casadio R (2008). «Reconstruction of 3D Structures From Protein Contact Maps». IEEE/ACM Transactions on Computational Biology and Bioinformatics. 5 (3): 357–367. PMID18670040. doi:10.1109/TCBB.2008.27
↑Fitch, W. M.; Markowitz, E. (1970). «An improved method for determining codon variability in a gene and its application to the rate of fixation of mutations in evolution.». Biochem. Genet. 4 (5): 579–593. PMID5489762. doi:10.1007/bf00486096
↑Kass, I.; Horovitz, A. (2002). «Mapping pathways of allosteric communication in GroEL by analysis of correlated mutations.». Proteins. 48 (4): 611–617. PMID12211028. doi:10.1002/prot.10180
↑Gobel, U.; et al. (1994). «Correlated mutations and residue contacts in proteins.». Proteins. 18 (4): 309–317. PMID8208723. doi:10.1002/prot.340180402
↑Hanson, Jack; Paliwal, Kuldip K; Litfin, Thomas; Yang, Yuedong; Zhou, Yaoqi (2018). «Accurate Prediction of Protein Contact Maps by Coupling Residual Two-Dimensional Bidirectional Long Short-Term Memory with Convolutional Neural Networks». Bioinformatics. 34 (23): 4039–4045. PMID29931279. doi:10.1093/bioinformatics/bty481
↑Bikadi Z, Demko L, Hazai E (2007). «Functional and structural characterization of a protein based on analysis of its hydrogen bonding network by hydrogen bonding plot». Arch Biochem Biophys. 461 (2): 225–234. PMID17391641. doi:10.1016/j.abb.2007.02.020