Matriz de similaridade

 Nota: Não confundir com Matrizes semelhantes.

Uma matriz de similaridade é uma matriz de pontuação (escores) que expressa a similaridade entre dois pontos dados. Matrizes de similaridade estão fortemente relacionadas com os seus homólogos, matrizes de distâncias e matrizes de substituição. Uma matriz de similaridade é o conceito oposto ao da matriz de distâncias. Os elementos de uma matriz de similaridade medem as semelhanças entre pares de objetos - quanto maior similaridade de dois objetos, maior o valor da medida.

Exemplo de matriz de similaridade:

A G C T
A 10 -1 -3 -4
G -1 7 -5 -3
C -3 -5 9 0
T -4 -3 0 8

Uso no alinhamento de sequências

Matrizes de similaridade são usadas no alinhamento de sequências. Pontuações mais altas são dadas a caracteres mais-similares e pontuações mais baixas ou negativas para caracteres diferentes.

Matrizes de similaridade de nucleotídeos são usadas para alinhar seqüências de ácidos nucleicos. Porque há apenas quatro nucleotídeos comumente encontrados em ADN (Adenina (A), Citosina (C), Guanina (G) e Timina (T)), matrizes de similaridade de nucleotídeos são muito mais simples do que matrizes de similaridade de proteínas. Por exemplo, uma matriz simples irá atribuir para bases idênticas uma pontuação de +1 e para bases não-idênticas uma pontuação de -1. Uma matriz mais complicada daria uma pontuação mais elevada para as transições (mudanças de uma pirimidina, como C ou T para outra pirimidina, ou de uma purina, tais como A ou G para outra purina) do que transversões (a partir de uma pirimidina para uma purina ou vice-versa). A razão correspondência/não-correspondência da matriz define a distância evolucionária do alvo.[1][2] A matriz de DNA +1/−3 usada pelo BLASTN é mais adequada para encontrar correspondências entre as seqüências que são 99% idênticas; uma matriz +1/−1 (ou +4/−4) é muito mais adequada para seqüências com similaridade de cerca de 70%. Matrizes para seqüências de menor similaridade requerem alinhamentos de seqüências mais longas.

Matrizes de similaridade de aminoácidos são mais complicadas, porque existem 20 aminoácidos codificados pelo código genético. Portanto, a matriz de similaridade de aminoácidos contém 400 entradas (embora seja geralmente simétrica). A primeira abordagem marcava todas as mudanças de aminoácidos de forma igual. Um refinamento posterior foi determinar semelhanças de aminoácidos com base em quantas mudanças de base foram necessárias para alterar um códon de código para esse aminoácido. Este modelo é melhor, mas não leva em conta a pressão seletiva das mudanças de aminoácidos. Modelos melhores levam em conta as propriedades químicas dos aminoácidos.

Uma abordagem tem sido gerar matrizes de similaridade empiricamente. O método Dayhoff utilizava árvores filogenéticas e seqüências retiradas de espécies da árvore. Esta abordagem tem dado origem a série de matrizes PAM. Matrizes PAM são rotuladas com base em quantas mudanças de nucleotídeos ocorreram, por cada 100 aminoácidos. Enquanto as matrizes PAM se beneficiam de ter um modelo evolutivo bem compreendido, elas são mais úteis a curtas distâncias evolutivas (PAM10 - PAM120). Em longas distâncias evolutivas, por exemplo PAM250 ou identidade de 20%, tem sido demonstrado que as matrizes BLOSUM são muito mais eficazes.

A série BLOSUM foram geradas, se comparando uma série de sequências divergentes. A série BLOSUM é rotulada com base na quantidade de entropia que permanece não mutada entre todas as seqüências, assim um número menor BLOSUM corresponde a um número maior PAM.

Referências

  1. States, D.; Gish, W.; Altschul, S. (1991). «Improved sensitivity of nucleic acid database searches using application-specific scoring matrices». Methods: a companion to methods in enzymology. 3 (1). p. 66. doi:10.1016/S1046-2023(05)80165-3 
  2. Sean R. Eddy (2004). «Where did the BLOSUM62 alignment score matrix come from?» (PDF). Nature Biotechnology. 22 (8). p. 1035. PMID 15286655. doi:10.1038/nbt0804-1035