L'alineament múltiple de seqüències (MSA, per les sigles en anglès) es refereix al procés o resultat d’un alineament de seqüències de tres o més seqüències biològiques, generalment proteïnes, ADN o ARN. En alguns casos, es poden trobar relacions evolutives i inclús l'avantpassat comú. En cas que es vulgui inferir homologia s’ha de recórrer a l'anàlisi filogenètic.
Podríem considerar que un MSA és una organització matricial d’un grup de seqüències, en la qual cada fila correspon a una seqüència diferent (per exemple, d’espècies diferents) i cada columna correspon a una posició equivalent en les seqüències. Les representacions visuals de l’alineament mostren les mutacions puntuals (un únic canvi d’aminoàcid o de nucleòtid) que apareixen com diferents caràcters en una mateixa columna, així com les insercions o delecions de fragments, conegudes com a indels, que apareixen com buits a les seqüències.[1]
Per dur a terme aquest procés s’usen algorismes computacionals per produir i analitzar els alineaments. La major part dels programes utilitzen mètodes heurístics en canvi d'optimitzacions globals, ja que trobar un alineament global per moltes seqüències és costós a nivell computacional. Per altra banda, les solucions heurístiques no et donen garanties sobre la qualitat de les mateixes i solen estar per sota de la solució òptima.[2][3][3]
Mètodes d'alineament
Hi ha diversos mètodes d’alineament que s’utilitzen dintre dels alineaments de seqüències múltiples per maximitzar les puntuacions i la correcció dels alineaments.
Programació dinàmica
Un mètode directe per produir MSA és l’ús de tècniques de programació dinàmica amb l’objectiu d’identificar la solució d’alineament òptim. Per proteïnes aquest mètode implica dos paràmetres: una penalització per gap (indel) i una matriu de substitució, que consistiria a alinear cada parell d’aminoàcids basant-se en les propietats químiques i la probabilitat evolutiva que ocorri la mutació. Per les seqüències nucleotídiques s’utilitza una penalització semblant, però les matrius de substitució són més simples, ja que només hi ha quatre caràcters possibles, només es consideren puntuacions positives en casos de coincidencia (match) i puntuació negativa en els casos de desigualtat (mismatches). Les puntuacions de les matrius de substitució poden ser positives o una combinació de positives i negatives en el cas dels alineaments globals, però en el cas d’un alineament local s’han de tenir en compte les positives i les negatives.[4]
Per n seqüències individuals, el mètode requereix reconstruir l'equivalent n-dimensional de la matriu formada a l’alineament estàndard dels parells de seqüències. D’aquesta forma hi ha un increment exponencial de l'espai de cerca a mesura que va augmentant n, fet que també dependrà de la longitud de la seqüència. La troballa de l’òptim global per n seqüències mitjançant aquest mètode es considera com un problema NP-complet.[5][6][7] El 1989, basat en l'algorisme Carrillo-Lipman,[8] Altschul va introduir un mètode pràctic que utilitzava els alineaments parells per restringir l'espai de cerca n-dimensional.[9] En aquest enfocament els alineaments de programació dinàmica per parells es realitzen a cada parell de seqüències del conjunt de consultes, i només es busca l’alineament a l'espai n-dimensional (es troba de forma efectiva la intersecció entre les trajectòries locals dels voltants immediats de cada solució òptima de l’alineament per parells). Actualment els mètodes de programació dinàmica només s’utilitzen quan es necessita un alineament d’alta qualitat entre un petit nombre de seqüències, així com benchmark estàndard en l'avaluació de tècniques heurístiques noves o millorades.
Construcció progressiva de l’alineament
És el mètode més utilitzat per dur a terme l’alineament múltiple de seqüències. Utilitza una recerca heurística coneguda com a tècnica progressiva (també conegut com a mètode jeràrquic o arbre) desenvolupat per Da-Fei Feng i Doolittle el 1987.[10] L’alineament progressiu crea un MSA combinant alineaments de parelles començant per les parelles més similars i progressant cap a les més llunyanes. Tots els alineaments progressius requereixen dues passes: el primer pas on les relacions entre seqüències són representades com un arbre filogenètic, anomenat arbre guia, i un segon pas on es construeix el MSA afegint progressivament les seqüències per construir l’alineament d’acord amb l’arbre guia. L'arbre guia inicial està determinat per un algorisme d'agrupament (clustering en anglès), com podrien ser els mètodes de neighbor-joining (o "unió de veïns") o UPGMA (de l’anglès Unweighted Pair Group Method with Arithmetic mean). A més, utilitza distàncies basades en el nombre de subseqüències idèntiques de dues lletres (ús de FASTA en lloc d’una alineació de programació dinàmica).[11]
El principal problema dels alineaments progressius és que si es produeix en qualsevol etapa del creixement del MSA, s’afectarà el resultat final, per tant és important una bona assignació inicial del parentesc entre les seqüències. El rendiment és baix quan totes les seqüències del conjunt estan relacionades de manera llunyana. Alguns mètodes progressius més moderns modifiquen la seva funció de puntuació amb una funció de ponderació secundària, que assigna factors d’escala als membres individuals de la consulta establerts de manera no lineal, en funció de la seva distància filogenètica, respecte als seus veïns més propers. Això corregeix la selecció no aleatòria de les seqüències donades al programa.[11]
Aquests mètodes són suficientment eficients per a poder ser implementats a gran escala per a moltes seqüències, i s'executen sovint a servidors web d'accés públic, de manera que els usuaris no necessiten instal·lar localment les aplicacions. El mètode d’alineament progressiu més conegut és la família Clustal,[12] especialment la seva variant ponderada ClustalW,[13] al qual es pot accedir a través d'un gran nombre de portals web, com ara GenomeNet, EBI i EMBNetArxivat 2011-05-01 a Wayback Machine.. Clustal s’utilitza principalment en la creació d’arbres filogenètics i com a base per a la predicció d’estructura de proteïnes mitjançant models d'homologia. La darrera versió de la família Clustal i recomanada per l'EMBL-EBI és Clustal Omega, el qual es basa en arbres guia arrelats i tècniques de models de Màrkov ocults per fer alineament de proteïnes.[14][15] Un altre programa habitual és T-Coffee[16] que no ofereix la rapidesa de Clustal, però produeix alineaments més precisos per a conjunts de seqüències emparentades de forma llunyana.
Al basar-se en l’heurística pot ser difícil avaluar la qualitat de l’alineament i la seva significació biològica. El programa PSAlignArxivat 2020-08-02 a Wayback Machine. és un mètode semiprogressiu que té com a objectiu la millora de la qualitat de l’alineament, ja que no utilitza una heurística “amb pèrdues” i s’executa en temps polinòmic.[17]
Mètodes iteratius
Es tracta d’uns mètodes per produir MSA que redueixen els errors inherents en els mètodes progressius. S’anomenen “iteratius” perquè treballen d’una manera semblant als mètodes progressius, però realineen de manera repetida les seqüències inicials i afegeixen de noves al MSA en construcció. Un dels motius pels quals els mètodes progressius depenen en gran manera d’una alta qualitat de l’alineament inicial és perquè aquests alineaments sempre s’inclouran al resultat final, ja que un cop la seqüència s'introdueix al MSA no es tornarà a fer l’alineament. Aquesta aproximació millora l'eficiència a costa de la precisió. En canvi, com ja hem vist, els mètodes iteratius poden tornar als alineaments parells calculats prèviament (o sub-MSAs) incorporant subconjunts de la seqüència problema com a mesura per optimitzar una funció objectiu general, així com buscar l’alineament amb la puntuació més alta.[11]
S’han implementat diversos mètodes subtilment diferents i estan disponibles en paquets de programari; els articles de revisió i les comparacions són útils, però normalment s’abstenen d’escollir quina és la “millor” tècnica. El paquet de programari PRRN/PRRP utilitza un algorisme hill climbing (o "algorisme d'escalada") per optimitzar la puntuació del MSA.[18] PRRP té un millor rendiment quan refina un alineament construït prèviament per un mètode més ràpid.[11]
Un altre programa iteratiu, DIALIGN, adopta un enfocament inusual centrant-se en els alineaments locals entre subsegments o motius de seqüència sense introduir un penalització per gap.[19] L’alineament de motius individuals s’aconsegueix amb una representació en forma de matriu semblant a les matrius de punts (dot-matrix en anglès) en els alineaments parells. Hi ha un mètode alternatiu que utilitza alineaments locals ràpids com a punts d’ancoratge per a un procediment d’alineament global més lent, el qual s’implementa a CHAOS/DIALIGN.[19]
El tercer mètode iteratiu conegut es coneix com a MUSCLE (de les sigles en anglès, MUltiple Sequence Comparison by Log-Expectation) i millora els mètodes progressius. El que fa és mesurar una distància més acurada per avaluar la relació entre dues seqüències. La mesura de la distància s'actualitza entre les etapes d’iteració (tot i que originàriament, MUSCLE contenia només 2-3 iteracions depenent si el refinament estava habilitat o no).[20]
Mètodes consens
Els mètodes consens pretenen trobar el MSA òptim d’entre els diferents alineaments del mateix grup de seqüències. Hi ha dos mètodes comuns utilitzats: M-COFFEEArxivat 2020-08-02 a Wayback Machine. i MergeAlign.[21]M-COFFEE utilitza MSA generats de set formes diferents, ja que combina els outputs de diferents alineadors. MergeAlign és capaç de generar alineaments consens a partir de qualsevol nombre d’alineaments introduïts utilitzant models d’evolució de seqüències entre d’altres. L'opció per defecte de MergeAlign és inferir l’alineament consens utilitzant alineaments generats utilitzant 91 models diferents d’evolució de la seqüència proteica, això és possible per l’ús de diferents matrius de substitució d’aminoàcids, que és més acurat que no pas l’ús d’una única matriu.
Models de Màrkov ocults
Els models ocults de Màrkov o HMM (per les seves sigles de l'anglès Hidden Màrkov Models) són models probabilístics que assignen probabilitats a totes les possibles combinacions de buits (gap), coincidències (match) i diferències (mismatch) per determinar alineament múltiple de seqüències o el conjunt d'aliments més probables. Els HMM poden produir un resultat únic amb la puntuació més alta, o també poden generar una família de possible alineacions que després es poden avaluar segons la seva significació biològica. Els HMM poden produir tant alineaments globals com locals. Tot i que els mètodes basats en HMM s'han desenvolupat recentment, ofereixen millores significatives pel que fa a velocitat computacional, especialment per a seqüències que contenen regions superposades.[11]
Els mètodes típics basats en HMM funcionen representant un MSA en forma de graf dirigit acíclic, conegut com un graf d'ordre parcial, i que consisteix en una sèrie de nodes que representen possibles entrades a les columnes d'un alineament múltiple de seqüències. En aquesta representació, una columna que estigui absolutament conservada (és a dir, que totes les seqüències del MSA comparteixen un caràcter concret en una posició determinada) es codifica com un únic node amb tantes connexions sortints com possibles caràcters hi hagi a la següent columna de l'alineament. En els termes d'un típic model ocult de Màrkov, els estats "observats" són les columnes individuals de l'alineament i els estats "ocults" representen la presumpta seqüència ancestral de la qual se suposa que han descendit les seqüències del conjunt problema. Una variant de cerca eficient del mètode de programació dinàmica, coneguda com l'algorisme de Viterbi, s'utilitza generalment per alinear successivament el MSA en creixement amb la següent seqüència del conjunt problema per tal de produir un nou MSA.[22] Això és diferent dels mètodes d'alineament progressiu, ja que l'alineament de les seqüències prèvies s'actualitza en cada addició d'una nova seqüència. Tanmateix, igual que els mètodes progressius, aquesta tècnica pot veure's influenciada per l'ordre en què les seqüències del conjunt problema s'integren a l'alineament, especialment en el cas que les seqüències no estiguin estretament relacionades.[11]
Hi ha diversos programes disponibles en els quals s’han implementat variants dels mètodes basats en HMM i que destaquen per la seva escalabilitat i eficiència, tot i que l’ús correcte d’un mètode HMM és més complex que no pas el dels mètodes progressius més comuns. El més senzill és POA (Partial-Order Alignment o "alineament d’ordre parcial");[23] Un mètode similar, però més general, és el que s’implementa als paquets SAM (Sequence Alignment and Modeling System o "sistema d’alineament de seqüència").[24] El SAM s’ha utilitzat com a font d’alineaments per a la predicció de l'estructura de proteïnes en participar en l'experiment de predicció d’estructures CASP (Critical Assessment of Techniques for Protein Structure Prediction o "Avaluació Crítica de les Tècniques per la Predicció de l'Estructural Proteica") i per desenvolupar una base de dades de proteïnes predites en l'espècie de llevat S. cerevisiae. D’altra banda, els mètodes del HMM també es poden fer servir per cerques a bases de dades amb HMMER.[25]
Mètodes filogenètics
La majoria dels mètodes d’alineament intenten reduir el nombre d'insercions/delecions i produir alineaments compactes. Això crea diversos problemes en el cas que les seqüències que vulguem alinear continguin regions que no siguin homòlogues. Aquests problemes són comuns a seqüències noves que no estan ben anotades i que poden contenir mutacions en el patró de lectura de la traducció, dominis que no li pertoquen o exonsempalmats no homòlegs. El primer mètode d’aquest tipus va ser desenvolupat el 2005 per Löytynoja i Goldman.[26] Els mateixos autors van publicar el 2008 un paquet de programa anomenat PRANK[27] que millora els alineaments quan hi ha insercions. Per contra, funciona més lent comparat amb els mètodes progressius o iteratius que van ser desenvolupats uns anys abans.
El 2012 van aparèixer dues eines filogenètiques noves: PAGAN[28] i ProGraphMSA.[29] Els dos programes es van desenvolupar independentment però comparteixen algunes característiques, com per exemple l’ús de grafs per millorar el reconeixement de les regions no-homòlogues i millorant la velocitat respecte PRANK.
Descobriment de motius
El descobriment de motius, també conegut com a cerca de patrons, és un mètode per localitzar motius de seqüència en MSA globals, i que representa un mitjà per produir millors alineaments de seqüències múltiples, així com per produir una matriu de puntuació per ser utilitzada en la cerca de motius similars a altres seqüències. S'han desenvolupat diversos mètodes per aïllar els motius, però tots es basen a identificar patrons curts molt conservats dins d’un l'alineament més gran i en la construcció d’una matriu, similar a una matriu de substitució que reflecteixi la composició d'aminoàcids o nucleòtids de cada posició en el suposat motiu. Els alineaments es poden refinar aleshores mitjançant aquestes matrius. En l'anàlisi estàndard de perfils, la matriu inclou entrades per a cada possible caràcter, així com entrades per a buits (gaps).[11] D'altra banda, els algoritmes estadístics de cerca de patrons poden identificar motius com a precursors d’un MSA en lloc de com a derivats. En molts casos, quan el conjunt de seqüències problema només conté un nombre reduït de seqüències, o només conté seqüències molt relacionades, s’afegeixen pseudo-comptadors per a normalitzar la distribució reflectida a la matriu de puntuació. En particular, això corregeix les entrades a la matriu amb probabilitat zero mitjançant valors petits però no nuls.
L'anàlisi per blocs és un mètode de descobriment de motius que restringeix la seva localització a regions de l'alineament que no tinguin buits. Els blocs es poden generar des d'un MSA o bé poden ser extrets de seqüències sense alinear fent servir un conjunt precalculat de motius generat a partir de famílies conegudes de gens.[30] La puntuació dels blocs depèn generalment de l'espaiat que hi ha entre caràcters amb una alta freqüència, més que en el càlcul d'una matriu de substitució explicita. Existeixen servidors com BLOCKS o InterPro el quals ofereixen un mètode interactiu per tal de localitzar motius en seqüències sense que aquestes estiguin alineades.
S'han implementat comparadors de patrons fent servir tant l'algorisme expectació-maximització com el mostreig de Gibbs. Una de les eines més habituals de cerca de motius, denominada MEME, utilitza expectació-maximizatció juntament amb models de Màrkov ocults per generar motius que després es fan servir com a eina de cerca amb MAST en la suite combinada MEME/MASTArxivat 2010-08-22 a Wayback Machine..[31][32]
Alineament múltiple de seqüències no codificants
Les regions no codificants de l’ADN, sobretot els llocs d’unió defactors de transcripció (o TFBS de l’anglès transcription factor binding site), es troben més conservades i no necessàriament estan relacionades evolutivament. De fet, poden haver convergit sense tenir un avantpassat comú. Per tant, les assumpcions que fem per alinear seqüències de proteïnes i regions de l’ADN codificants són diferents respecte a les que fem en el cas dels TFBS. Tot i que té sentit fer servir operadors mutadors per alinear regions codificants de seqüències homòlogues, els alineaments de seqüències d’unió per a un mateix factor de transcripció no es poden basar en aquests operadors mutadors de relacions evolutives. De la mateixa manera, l’operador evolutiu de les mutacions puntuals es pot fer servir per a definir una distància d’edició per a seqüències codificants, però tindria poc sentit per als TFBS, perquè qualsevol variació en la seqüència ha de mantenir un cert nivell d’especificitat per tal que siguin funcionals. Aquest fet esdevé molt important quan s’intenten alinear seqüències d’unió conegudes per tal de construir models que permetin predir altres localitzacions desconegudes d’aquest mateix lloc d’unió. Tot plegat, els mètodes per realitzar alineaments de múltiples seqüències han d’ajustar la hipòtesi evolutiva subjacent i els operadors que es fan servir i així alinear els llocs d’unió buscant l'alineament menys termodinàmic alhora que es conserva l'especificitat pel lloc d’unió.[33] Això es podria aconseguir mitjançant el programa EDNA.
Les tècniques d'optimització estàndard en informàtica també han estat usades per intentar produir MSA d'una certa qualitat i de manera eficient. Una de les tècniques són els algorismes genètics que s'utilitzen per produir MSA en un intent de simular de manera general l'hipotètic procés evolutiu que va donar lloc a la divergència en el conjunt de seqüències. El mètode consisteix en tallar possibles alineaments MSA en fragments i anar unint els fragments de manera repetida amb la introducció de gaps a diverses posicions. S'optimitza una funció objectiu durant la simulació, més generalment la funció de maximització de "suma de parells" introduïda en els MSA basats en la programació dinàmica. S'ha implementat una tècnica per seqüències proteiques al programa SAGA (Sequence Alignment by Genetic Algorithm),[36] l'equivalent en RNA es coneix com a RAGA.[37]
La tècnica de recuita simulada (més conegut pel seu nom anglès simulated annealing) s'encarrega de refinar i reordenar els alineaments determinats per algun altre mètode, ja que estan dissenyats per trobar les millors regions en l'espai d'alineació que la regió que ocupa l'input d'alineament. Aquest model també planteja que hi hagi una funció objectiu. Com a diferència s'utilitza un "factor de temperatura" (o factor Debye-Waller) virtual que determina la velocitat a la qual es duen a terme els reordenaments i la probabilitat de cadascun d'ells; típicament alterna períodes d'altes taxes de reordenaments amb probabilitats baixes (per explorar regions llunyanes de l'espai d'alineació) amb períodes de taxes baixes i probabilitats més altes per explorar els mínims locals a prop de les regions recentment "colonitzades". La implementació es fa a través del programa MSASA (Multiple Sequence Alignment by Simulated Annealing).[38]
Programació matemàtica i algorismes de solució exacta
La programació matemàtica, en particular la dels models de programació d'enters mixta, són un altre mètode de resolució de MSA. L'avantatge és que milloren l'eficiència respecte als mètodes de programació dinàmica degut a l'aplicabilitat de les tècniques de descomposició per a programes matemàtics, on els models MSA són descompostos en petites porcions i resolts de manera iterativa fins que es troba una solució. Alguns algorismes d'exemple que s'utilitzen per resoldre models de programació d'enters mixta inclouen el branch and price ("branca i preu")[39] i la descomposició de Benders.[40] Tot i que els mètodes exactes són més lents comparats amb els algorismes heurístics, garanteixen la troballa d'una solució final òptima, inclús per mostres de gran longitud.
Computació quàntica simulada
El gener del 2017, D-Wave Systems va anunciar que el seu programari informàtic de codi obert Qbsolov s'havia utilitzat per trobar una solució més ràpida al MSA. L'objectiu de la seva creació va ser que fos més fàcil accedir al poder de la computació quàntica i a la creació de programari específic, però sense necessitat d'entendre la física complexa arrelada a aquest àmbit. Qsolov tracta de subdividir els problemes grans per poder resoldre'ls en processadors D-Wave, finalitzant amb la combinació de les respostes individuals en una global.[41]
Visualització dels alineaments i control de qualitat
La necessitat de l'ús de l'heurística per l'alineament múltiple vol dir que per a un grup de proteïnes hi ha sempre una possibilitat que l'alineament contingui errors. Per exemple, una avaluació de diversos programes d'alineaments guia mitjançant BAliBase benchmark va trobar aproximadament un 24% de les parelles d'aminoàcids alineats incorrectament.[42] Aquests errors poden ocórrer perquè les insercions úniques en una o més seqüències, o a través de processos evolutius més complexos, porta a un difícil alineament de les proteïnes només per la seqüència. En cas que s'augmenti el nombre de la seqüència i incrementi la seva divergència es produiran molts més errors, simplement per la naturalesa heurística dels algorismes de MSA. Diversos visors d'alineaments múltiples de seqüència permeten una revisió visual dels alineaments, normalment inspeccionant la qualitat de l'alineament de llocs funcionals anotats en dues o més seqüències. Molts també permeten editar l'alineament per corregir aquests errors (generalment menors) amb l'objectiu d'obtenir un alineament òptim acurat, adequat per l'ús en anàlisis filogenètiques o models comparatius.[43]
Malgrat això, a mesura que augmenta el nombre de seqüències i especialment en els estudis d'associació del genòma sencer (o en anglès, Genome-wide association study, GWAS) que inclouen diversos MSA és impossible polir els alineaments manualment (a més que és una tècnica subjectiva). Finalment, ni tan sols el millor expert podria alinear els casos més ambigus amb una mínima seguretat. En aquests casos és comú utilitzar procediments automàtics per excloure les regions que no s'alineen de manera fiable. En el cas de l'anàlisi filogenètic, el programa Gblocks és molt usat per eliminar blocs d'alineaments dels quals se sospita una qualitat baixa.[44] Aquest criteri podria ser un filtre excessiu per regions que contenen esdeveniments d'insercions/delecions alineats adequadament, fet que ens evitaria la detecció d'aquestes zones amb selecció positiva. Uns quants algorismes d'alineament generen puntuacions específiques del lloc que permeten seleccionar regions d'alta confiança, servei ofert per primer cop pel programa SOAP,[45] que avalua la robustesa de cada columna a la pertorbació amb els paràmetres del CLUSTALW. El programa T-Coffee[46] utilitza una llibreria d'alineaments i la puntuació final està acolorida d'acord amb la confiança entre els diferents residus. TCS (Transitive Consistency Score) utilitza les llibreries dels alineaments parells de T-Coffee per avaluar qualsevol MSA. Les projeccions per parells poden produir-se utilitzant mètodes ràpids o lents, permetent així una compensació entre velocitat i precisió.[47][48] Un altre programa que pot donar un alineament final amb puntuacions de confiança és FSA (Fast Statistical Alignment),[49] que utilitza un model estadístic que permet calcular la incertesa de l'alineament. La puntuació HoT (Heads-Or-Tails o "caps i cues") pot fer-se servir com una mida d'incertesa d'un alineament específic de lloc degut a l'existència de diverses solucions co-òptimes.[50] El programa GUIDANCE calcula una mesura de confiança similar específica de lloc, basada en la robustesa de l'alineament a la incertesa de l'arbre guia (alineaments progressius). Una alternativa amb més estadística per avaluar la incertesa és l'ús de models evolutius probabilístics per a l'estimació conjunta de filogènia i alineament. Una aproximació Bayesiana permet calcular les probabilitats posteriors de filogènia i alineació estimades, la qual és una mesura de la confiança d'aquestes estimacions. En aquest cas, la probabilitat posterior pot ser calculada per cada posició de l'alineament i que s'ha implementat al programa BAli-Phy.[34] Hi ha diversos programes gratuïts per la visualització d'alineaments múltiples de seqüència, per exemple Jalview[51] and UGENE.[35]
Usos en filogenètica
Els alineaments de múltiples seqüències es poden fer servir per a crear arbres filogenètics.[52] Això ha estat possible per dos motius. El primer és el fet que els dominis funcionals que ja són coneguts i tenen les seves seqüències anotades es poden fer servir per fer alineaments de seqüències que encara no estan anotades. L'altra raó és que les regions conservades que se sap que són importants funcionalment es poden trobar. Això fa possible que els alineaments de múltiples seqüències es puguin utilitzar per analitzar i trobar relacions evolutives a través de l'homologia de les seqüències. D'aquesta manera tant mutacions puntuals, com delecions o insercions es poden detectar.[52][53]
Els alineaments de múltiples seqüències també es poden fer servir per identificar posicions o llocs funcionals importants, com ara llocs d'unió, llocs actius, o corresponents a altres funcions importants, mitjançant la localització dels dominis conservats. Quan s'analitza un MSA i es comparen les seqüències, és important parar atenció i considerar diversos aspectes de les seqüències. Aquests aspectes inclouen el percentatge d'identitat, similitud, i homologia. La identitat implica que les seqüències tenen residus idèntics a la seva respectiva posició. D'altra banda, la similitud es refereix a la comparació de les seqüències en termes de contingut quantitatiu de residus similars. Per exemple, en el cas de les seqüències nucleotídiques, les pirimidines es consideren similars entre elles i el mateix succeeix amb les purines. La similitud s'acaba podent relacionar amb l'homologia, de manera que les seqüències més similars són les que tenen una major probabilitat de ser homòlogues. Per tant, l'anàlisi de la similitud pot servir per a trobar un avantpassat comú.[53]
↑Higgins DG, Sharp PM. (1988). CLUSTAL: a package for performing multiple sequence alignment on a microcomputer. Gene 73(1):237-44.
↑ 13,013,1Thompson JD, Higgins DG, Gibson TJ. (1994). CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positions-specific gap penalties and weight matrix choice. Nucleic Acids Res 22:4673-4680.
↑Hughey R, Krogh A. SAM: Sequence alignment and modeling software system. Technical Report UCSC-CRL-96-22, University of California, Santa Cruz, CA, September 1996
↑Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 1998.
↑Bailey TL, Elkan C (1994). "Fitting a mixture model by expectation maximization to discover motifs in biopolymers". Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology. Menlo Park, California: AAAI Press. pp. 28–36.
Duret, L.; S. Abdeddaim (2000). "Multiple alignment for structural functional or phylogenetic analyses of homologous sequences". In D. Higgins and W. Taylor (ed.). Bioinformatics sequence structure and databanks. Oxford: Oxford University Press.
Notredame, C. (2002). "Recent progresses in multiple sequence alignment: a survey". Pharmacogenomics. 3 (1): 131–144. doi:10.1517/14622416.3.1.131. PMID11966409.
Thompson, J. D.; Plewniak, F.; Poch, O. (1999). "A comprehensive comparison of multiple sequence alignment programs". Nucleic Acids Research. 27 (13): 12682–2690. doi:10.1093/nar/27.13.2682. PMC148477. PMID10373585.
Chowdhury B, Garai G (2017). "A review on multiple sequence alignment from the perspective of genetic algorithm". 109(5-6):419-431. doi::10.1016/j.ygeno.2017.06.007.PMID: 28669847.
Prodigy house in Studley Royal ParkFountains HallFountains HallTypeProdigy houseLocationStudley Royal ParkCoordinates54°06′35″N 1°35′11″W / 54.109753°N 1.586430°W / 54.109753; -1.586430Built1598-1611Built forSir Stephen ProctorArchitectural style(s)Elizabethan and JacobeanOwnerNational Trust Listed Building – Grade IOfficial nameFountains HallDesignated23 April 1952Reference no.1149809 Location of Fountains Hall in North Yorkshire Fountains Hall Fou...
Sultanate that was located in the Siak Regency, Riau (1723–1949) Sultanate of Siak Sri IndrapuraKesultanan Siak Sri Inderapuraكسلطانن سيق سري اندراڤور1722–1949 Flag Coat of arms Siak and its dependencies, 1850.CapitalBuantan, Mempura, Senapelan Pekanbaru, Siak Sri IndrapuraCommon languagesMalayReligion Sunni IslamSultan Yang Dipertuan Besar • 1722–1746 Abdul Jalil Rahmad Syah I• 1915–1949 Syarif Kasim II History • Founded...
Kara Mustafa PasciàIl Gran Visir Kara Mustafa (Ritratto del XVII secolo) Gran visir dell'Impero ottomanoDurata mandato19 ottobre 1676 –25 dicembre 1683 MonarcaMehmed IV PredecessoreKöprülü Fazıl Ahmed Pascià SuccessoreKara İbrahim Pascià Capitan pasciàDurata mandato1666–1670 Dati generaliSuffisso onorificopascià Pascià Kara Mustafa (in turco ottomano: مرزيفونلى قره مصطفى پاشا, in turco Merzifonlu Kara Mustafa Paşa, lett. Mustaf...
Recorrido de la Vía Apia: en rojo la Appia Antica; en azul, la Appia Traiana. Itinerario bifurcado de la Vía Apia. Tramo de la Vía Apia en su estado actual en Roma, Italia. La Vía Apia (en latín: Via Appia) fue una de las más importantes calzadas de la antigua Roma que unía a dicha ciudad con Brindisi, el más importante puerto comercial con el Mediterráneo oriental y Oriente Medio. Estacio describió su importancia (Sylvae, 2.2) al describirla por su nombre común: “APPIA LONGARUM ...
43°44′05″N 7°25′17″E / 43.73465°N 7.42133333°E / 43.73465; 7.42133333 جائزة موناكو الكبرى 1980 السباق 6 من أصل 14 في بطولة العالم لسباقات الفورمولا واحد موسم 1980 السلسلة بطولة العالم لسباقات فورمولا 1 موسم 1980 البلد موناكو التاريخ 18 مايو 1980 مكان التنظيم حلبة موناكو طول المسار 3.312 ك�...
English, Scottish, Irish and Great Britain legislationActs of parliaments of states preceding the United Kingdom Of the Kingdom of EnglandRoyal statutes, etc. issued beforethe development of Parliament 1225–1267 1275–1307 1308–1325 Temp. incert. 1327–1376 1377–1397 1399–1411 1413–1421 1422–1460 1461 1463 1464 1467 1468 1472 1474 1477 1482 1483 1485–1503 1509–1535 1536 1539–1540 1541 1542 1543 1545 1546 1547 1548 1549 1551 ...
Ranking published by Forbes magazine The highest-paid musicians[1][2][3] in the world have been reported annually by Forbes since at least 1987. For measurement, the magazine used pretax earnings—before deducting fees for agents, managers or lawyers.[4] Most of the lists were estimated within a June-to-June scoring period, except for 1999, 2021, and 2022 when a calendar year period was used instead.[5][6][7] U2 became the annual highes...
الطقس الإسكندري أو الشعيرة السكندرية[1] هو الطقس والتقليد الليتورجي الذي تستخدمه الكنيسة القبطية الأرثوذكسية، وكنيسة التوحيد الأرثوذكسية الإريترية، وكنيسة التوحيد الأرثوذكسية الإثيوبية فضلاً عن مقابلاتها الكنائس الكاثوليكية الشرقية وهي الكنيسة القبطية الكاثوليك...
Feminine qualities in boys or men Effeminacy or male femininity[1][2] is the embodiment of feminine traits in boys or men, particularly those considered untypical of men or masculinity.[3] These traits include roles, stereotypes, behaviors, and appearances that are socially associated with girls and women. Throughout history, men considered effeminate have faced prejudice and discrimination. Gay men are often stereotyped as being effeminate, and vice versa. However, fe...
معركة نورثهامبتون جزء من حرب الوردتين التاريخ 10 يوليو 1460 البلد مملكة إنجلترا الموقع نورثامبتون 52°13′23″N 0°53′03″W / 52.223055555556°N 0.88416666666667°W / 52.223055555556; -0.88416666666667 تعديل مصدري - تعديل 52°14′12″N 0°53′36.8″W / 52.23667°N 0.893556°W / 52.23667; -0.89355...
Guidance and navigation computer used in Apollo spacecraft Apollo Guidance ComputerApollo Guidance Computer and DSKYInvented byCharles Stark Draper LaboratoryManufacturerRaytheonIntroducedAugust 1966; 57 years ago (1966-08)DiscontinuedJuly 1975; 48 years ago (1975-07)TypeAvionicsGuidance computerProcessorDiscrete silicon integrated circuit (IC) chips (RTL based)Frequency2.048 MHzMemory15-bit wordlength + 1-bit parity2048 words RAM (magnetic-core m...
يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (ديسمبر 2018) 2005 في ألمانيامعلومات عامةالسنة 2005 2004 في ألمانيا 2006 في ألمانيا تعديل - تعديل مصدري - تعديل ويكي بيانات عنت �...
لمعانٍ أخرى، طالع فيتامين (توضيح). التركيب الكيمياوي لفيتامين ب 7 أو بيوتين. فيتامينات بي (بالإنجليزية: B vitamins) هي مجموعة من الفيتامينات القابلة للذوبان في الماء والتي تلعب أدوارًا مهمة في استقلاب الخلايا وتكوين خلايا الدم الحمراء.[1] على الرغم من أن هذه الفيتامين...
У этого термина существуют и другие значения, см. Высший совет национальной обороны. Высший советнациональной обороны англ. Higher Institute of National Defence Общая информация Страна Камбоджа Юрисдикция Камбоджа Дата создания 1985 Дата упразднения 1998 Руководство Подчинено Коали�...
Hindu weavers baniya caste For other uses, see Tanti (disambiguation). This article relies largely or entirely on a single source. Relevant discussion may be found on the talk page. Please help improve this article by introducing citations to additional sources.Find sources: Tanti – news · newspapers · books · scholar · JSTOR (October 2022) Ethnic group TantiRegions with significant populationsIndiaLanguages Gujarati , Marathi , Bhojpuri , Bengali , Od...
Species of New World monkey Toppin's titi monkey In Tambopata National Reserve Conservation status Least Concern (IUCN 3.1)[1] Scientific classification Domain: Eukaryota Kingdom: Animalia Phylum: Chordata Class: Mammalia Order: Primates Suborder: Haplorhini Infraorder: Simiiformes Family: Pitheciidae Genus: Plecturocebus Species: P. toppini Binomial name Plecturocebus toppini(Thomas, 1914) Toppin's titi monkey (Plecturocebus toppini) is a species of titi monkey, a type...