Formato FASTA

Em bioinformática, o formato FASTA é um formato baseado em texto para representar tanto sequencias de nucleótidos quanto sequencias de peptídeos, no qual os nucleotídeos ou aminoácidos são representados usando códigos de uma única letra.[1][2] O formato também permite sequências de nomes e comentários precedendo as sequências. O formato se origina do FASTA, pacote de software, mas agora se tornou um padrão na área de bioinformática. A simplicidade do formato FASTA torna mais fácil manipular e analisar sequências usando ferramentas de processamento de texto e linguagens de script como Python, Ruby, e Perl.

Formato

Uma sequência em formato FASTA começa com uma descrição de uma única linha, seguida por linhas de dados em sequência.

A linha de descrição se distingue a partir da sequência dos dados por um símbolo maior-que (">") na primeira coluna. A palavra que segue o símbolo ">" é o identificador da sequência, e o resto da linha é a descrição (ambos são opcionais). Não deve haver nenhum espaço entre o ">" e a primeira letra do identificador. Recomenda-se que todas as linhas do texto sejam mais curtas do que 80 caracteres. A sequência termina se uma outra linha de partida com um ">" aparece, o que indica o início de outra sequência. Um exemplo simples de uma sequência em formato FASTA:

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY

História

O formato FASTA/Pearson original é descrito na documentação para o conjunto de programas FASTA. Ele pode ser baixado com qualquer distribuição gratuita do FASTA (ver fasta20.doc, fastaNV.doc ou fastaNV.me - onde NV é o número da versão).

Uma sequência em formato FASTA é representada como uma série de linhas, que não devem ter mais do que 120 caracteres e, geralmente, não excedem 80 caracteres. Isso provavelmente ocorreu visando permitir a pré-alocação de tamanhos fixos de linhas no software: naquele momento em que a maioria dos usuários contava com terminais DEC VT (ou compatíveis) só se podia mostrar 80 ou 132 caracteres por linha. A maioria das pessoas preferia a fonte maior nos modos 80 caracteres e por isso tornou-se comum recomendar o uso de 80 caracteres ou menos (geralmente 70) para as linhas FASTA.

A primeira linha em um arquivo FASTA começa ou com um símbolo ">" (maior que) ou um ";" (ponto e vírgula) e é tomada como um comentário. Linhas subsequentes começando com um ponto e vírgula são ignoradas pelo software. Uma vez que o único comentário utilizado era o primeiro, rapidamente se tornou uso comum armazenar uma descrição sumária da sequência, muitas vezes começando com um número único de acesso à biblioteca, e com o tempo tornou-se comum sempre usar ">" para a primeira linha e não usar mais comentários iniciando por ";" (que de qualquer forma seriam ignorados).

Após a linha inicial (usada para uma descrição única da sequência) vem a sequência em si no padrão de código de uma letra. Outra coisa além de um código válido é ignorada (incluindo espaços, tabulações, asteriscos, etc ..). Originalmente, era também comum terminar a sequência com um caracter "*" (asterisco) (em analogia com o uso de sequências formatadas PIR) e, pelo mesmo motivo, deixar uma linha em branco entre a descrição e a sequência.

Algumas sequências de exemplo:

   ;LCBO - Prolactin precursor - Bovine
   ; a sample sequence in FASTA format
   MDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSS
   EMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHL
   VTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDED
   ARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC*
   >MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken
   ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
   FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
   DIDGDGQVNYEEFVQMMTAK*
   >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
   LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
   EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
   LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
   GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
   IENY

Um formato FASTA de sequências múltiplas seria obtido pela concatenação de vários arquivos FASTA de uma única sequência. Isto não implica uma contradição com o formato pois apenas a primeira linha em um arquivo FASTA pode começar com um ";" ou ">", daí obrigando todas as sequências subsequentes iniciar com um ">", a fim de ser tomadas como diferentes (e ainda forçando a reserva exclusiva de ">" para a linha de definição da sequência). Assim, os exemplos acima podem também ser tomados como um arquivo multisequencial se tomados em conjunto.

Conversores de formato

Arquivos FASTA podem ser convertidos em lote para ou de um formato MultiFASTA usando ferramentas, algumas das quais estão disponíveis como software gratuito (freeware). Ferramentas também estão disponíveis para a conversão de lotes a partir de formatos de [cromatograma] (ABI/SCF) para FASTA.

Linha de cabeçalho

A linha de cabeçalho, que começa com '>', dá um nome e/ou um identificador exclusivo para a sequência, e muitas vezes lotes de outras informações também. Muitos banco de dados de sequência diferentes usam cabeçalhos padronizados, o que ajuda quando se quer extrair automaticamente as informações do cabeçalho. A linha de cabeçalho pode conter mais de um cabeçalho, separados por um caracter ^A (Control-A).

No formato original FASTA Pearson, um ou mais comentários, distinguidos por um ponto e vírgula no início da linha, podem ocorrer após o cabeçalho. A maioria dos bancos de dados e aplicações de bioinformática não reconhecem esses comentários e seguem a especificação NCBI FASTA. Um exemplo de um arquivo de sequências múltiplas FASTA segue:

>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Representação de sequências

Após a linha de cabeçalho e comentários, uma ou mais linhas devem seguir descrevendo a sequência: cada linha de uma sequência deve ter menos de 80 caracteres. Sequências podem ser sequências de proteínas ou sequências de ácidos nucleicos, e elas podem conter lacunas ou caracteres de alinhamento (ver alinhamento de sequências). Sequências devem ser representados nos códigos padrão IUB/IUPAC para aminoácidos e ácidos nucleicos, com as seguintes exceções: minúsculas são aceitas e são mapeadas em letras maiúsculas; um único hífen ou traço pode ser usado para representar um caracter de lacuna; e em sequências de aminoácidos, U e * são letras aceitáveis (veja abaixo). Dígitos numéricos não são permitidos, mas são usados ​​em alguns bancos de dados para indicar a posição na sequência.

Os códigos de ácido nucléico suportados são[3]:

Código de Ácido Nucleico Significado
A Adenosina
C Citosina
G Guanina
T Timidina
U Uracila
R G A (puRina)
Y T U C (Pirimidina - do inglês pYrimidine)
K G T U (Cetona - do inglês Ketone)
M A C (grupo aMina)
S G C (Interação forte -do inglês Strong interaction)
W A T U (Interação fraca -do inglês Weak interaction)
B G T U C (não A) (B vem após A)
D G A T U (não C) (D vem após C)
H A C T U (não G) (H vem após G)
V G C A (não T, não U) (V vem após U)
N A G C T U (qualquer - aNy)
X mascarado
- lacuna de comprimento indeterminado

Os códigos suportados (24 aminoácidos e 3 códigos especiais) são:

Código do Aminoácido Significado
A Alanina
B Ácido aspártico (D) ou Asparagina (N)
C Cisteína
D Ácido aspártico
E Ácido glutâmico
F Fenilalanina
G Glicina
H Histidina
I Isoleucina
J Leucina (L) ou Isoleucina (I)
K Lisina
L Leucina
M Metionina
N Asparagina
O Pirrolisina
P Prolina
Q Glutamina
R Arginina
S Serina
T Treonina
U Selenocisteína
V Valina
W Triptofano
Y Tirosina
Z Ácido glutâmico (E) ou Glutamina (Q)
X qualquer
* parada de tradução (stop)
- lacuna de tamanho indeterminado


Extensão de arquivo

Não existe um padrão de extensão de nome de ficheiro para um arquivo de texto contendo sequências formatadas em FASTA. A tabela abaixo mostra cada extensão e seu respectivo significado.

Extensão Significado Notas
fasta FASTA genérico Qualquer arquivo fasta genérico. Outras extensões podem ser fa, seq, fsa
fna ácido nucléico fasta Para regiões codificantes do genoma específico, use ffn, mas por outro lado fna é útil para ácidos nucléicos especificados genericamente.
ffn FASTA nucleotídeos de regiões codificadoras Contém regiões de codificação para um genoma.
faa aminoácido fasta Contém aminoácidos. Um arquivo fasta de múltiplas proteínas pode ter uma extensão mais específica mpfa.
frn FASTA ARN não-codificante Contém regiões de ARN não-codificante para um genoma, no alfabeto ADN por exemplo tARN, rARN

Referências

  1. Markel, Scott; León, Darryl (2003). Sequence Analysis in a Nutshell. A guide to Common Tools and Databases. Beijing: O'Reilly. p. 3-5. 286 páginas. ISBN 0-596-00494-X 
  2. Korf, Ian;Yandell, Mark;Bedell, Joseph (2003). Blast. Beijing: O'Reilly. 339 páginas. ISBN 0-596-00299-8 
  3. «IUPAC code table». NIAS DNA Bank. Consultado em 24 de outubro de 2011. Arquivado do original em 11 de agosto de 2011 

Ver também

Ligações externas

Read other articles:

Nama ini menggunakan aturan penamaan Slavia Timur; nama patronimiknya adalah Leonidovich dan nama keluarganya adalah Pajitnov. Alexey PajitnovAlexey Pajitnov di Barcelona, Spanyol,14 Juni 2008LahirAlexey Leonidovich Pajitnov16 April 1955 (umur 68)Moskwa, Uni SovietKebangsaanRusiaPekerjaanPerancang permainan video Insinyur komputerDikenal atasPengembang TetrisPenghargaanGame Developers Choice Awards First Penguin AwardLARA - Der Deutsche Games Award Alexey Leonidovich Pajitnov[a&#...

 

American filmThe BacchaeDionysus (Richard Werner) in The Bacchae, directed by Brad Mays, 2000.Directed byBrad MaysWritten byBrad Mays, adapted from EuripidesProduced byLorenda Starfelt, John MorrisseyStarringRichard Werner, Jonathan Klein, Lynn Odell, William Dennis Hunt, Will Shepherd, Ramona Reeves, Elyse Ashton, Kiersten MorganCinematographyJacob PingerEdited byBrad MaysMusic byPeter GirardRunning time88 minutesCountryUnited StatesLanguageEnglish The Bacchae is an independent film adaptati...

 

Orem-oremOrem-oremTempat asalIndonesiaDaerahKota Malang (Jawa Timur)Dibuat olehSeni kuliner JawaBahan utamatempe goreng, ayam, kuah santan kental, ketupat iris, taugeSunting kotak info • L • BBantuan penggunaan templat ini Orem-orem adalah masakan kuliner Jawa dari Kota Malang yang berbahan dasar irisan tempe goreng, ayam, dan dimasak bersama kuah santan kental. Penyajiannya adalah dengan ketupat iris yang diberi tauge, tempe dan disiram kuah sayur kuah santan. Rasa kuah orem-or...

Lykoi Nama lain Kucing serigala Asal  Amerika Serikat Standar ras TICA standar Lainnya lykoicat.com: standar Kucing domestik (Felis catus) Lykoi adalah salah satu ras kucing terbaru yang penampilannya mirip dengan serigala. Kucing ini merupakan kucing yang mengalami mutasi genetik alami, sehingga kucing ini tidak memiliki rambut di sekitar mata, hidung, telinga dan moncongnya.[1][2] Lykoi memiliki penampilan yang unik dan memiliki bulu seperti bulu tupai ketika sebagian ...

 

Christian Mølsted (1890s) Christian Ferdinand Andreas Mølsted (15 October 1862 – 10 May 1930) was a Danish artist who specialized in marine painting. He is best known for his painting of the frigate Niels Juel during the Battle of Heligoland on 9 May 1864.[1] Biography Born in Dragør, he was the son of Andreas Adolf Nikolaj Mølsted, a fisherman, and Ane Hans-Nielsdatter. With financial support from a relative, he completed his education in Copenhagen at Det tekniske Selskab wher...

 

Species of flounder found in the North Pacific Ocean This article is about the Pacific Dover sole. It is not to be confused with the common sole. Microstomus pacificus Conservation status Least Concern  (IUCN 3.1)[1] Scientific classification Domain: Eukaryota Kingdom: Animalia Phylum: Chordata Class: Actinopterygii Order: Pleuronectiformes Family: Pleuronectidae Genus: Microstomus Species: M. pacificus Binomial name Microstomus pacificus(Lockington, 1879) Synonyms Glyptocep...

Gaius Caesar Gaius Caesar (20 SM – 21 February 4 M) adalah putra sulung dari putri tunggal Kaisar Augustus, yakni Julia The Elder. Gaius dilahirkan dari pernikahan kedua Ibunya dengan Marcus Vipsanius Agrippa dan memiliki dua adik, yaitu Lucius Caesar dan Agrippa Postumus. Pada mulanya, Gaius dan Lucius Caesar dibesarkan seperti putranya sendiri oleh Kaisar Augustus sejak 17 SM. Adapun kedua kakak beradik ini dibesarkan untuk menjadi bagian dari pewaris kekaisaran.[1] Hal ini diketa...

 

土库曼斯坦总统土库曼斯坦国徽土库曼斯坦总统旗現任谢尔达尔·别尔德穆哈梅多夫自2022年3月19日官邸阿什哈巴德总统府(Oguzkhan Presidential Palace)機關所在地阿什哈巴德任命者直接选举任期7年,可连选连任首任萨帕尔穆拉特·尼亚佐夫设立1991年10月27日 土库曼斯坦土库曼斯坦政府与政治 国家政府 土库曼斯坦宪法 国旗 国徽 国歌 立法機關(英语:National Council of Turkmenistan) ...

 

This is a list of trolleybus systems in Ukraine by oblast. It includes all trolleybus systems, past and present. LAZ trolleybus in Ternopil, Ukraine Cherkasy Oblast Location Date (from) Date (to) Notes Cherkasy 9 November 1965 Chernihiv Oblast Location Date (from) Date (to) Notes Chernihiv 4 November 1964 Chernivtsi Oblast Location Date (from) Date (to) Notes Chernivtsi 1 February 1939 Autonomous Republic of Crimea Location Date (from) Date (to) Notes Alushta 20 August 1993 See also Simferop...

此条目序言章节没有充分总结全文内容要点。 (2019年3月21日)请考虑扩充序言,清晰概述条目所有重點。请在条目的讨论页讨论此问题。 哈萨克斯坦總統哈薩克總統旗現任Қасым-Жомарт Кемелұлы Тоқаев卡瑟姆若马尔特·托卡耶夫自2019年3月20日在任任期7年首任努尔苏丹·纳扎尔巴耶夫设立1990年4月24日(哈薩克蘇維埃社會主義共和國總統) 哈萨克斯坦 哈萨克斯坦政府...

 

2017 national census of Pakistan 2017 Census of Pakistan ← 1998 15 March 2017 (2017-03-15) to 25 May 2017 (2017-05-25) 2023 → General informationCountryPakistanTopics Census topics People and population Families and living arrangements Language Religion Housing AuthorityPakistan Bureau of StatisticsWebsitewww.pbs.gov.pkResultsTotal population213,222,917 ( 56.5%)Most populous ​provincePunjab (109,989,655)Least populous...

 

1809 battle during the Peninsular War Battle of Alba de TormesPart of Peninsular WarMarshal Nicolas Jean-de-Dieu Soult at the battleDate28 November 1809[1][2]LocationAlba de Tormes, Spain40°50′N 5°30′W / 40.833°N 5.500°W / 40.833; -5.500Result French victory[1]Belligerents French Empire Kingdom of SpainCommanders and leaders François Kellermann Duke del ParqueStrength 12,000[1] 18,000[1]Casualties and losses 600[1 ...

M. Rum Murkal Staff Ahli Sosial Ekonomi Mabes PolriMasa jabatan2014–2016PendahuluRudiard Manalaksak Linggom TampubolonPenggantiDeddy Fauzi Elhakim Informasi pribadiLahir3 September 1958 (umur 65)Palembang, Sumatera SelatanOrang tuaLetkol (Purn.) H. Murni Kamal (ayah)Alma materAkademi Kepolisian (1984)Karier militerPihakIndonesiaDinas/cabang Kepolisian Negara Republik IndonesiaMasa dinas1984—2016Pangkat Inspektur Jenderal PolisiSatuanBrigade MobilSunting kotak info • L...

 

American musician and producer (born 1984) ThundercatThundercat in 2018Background informationBirth nameStephen Lee BrunerBorn (1984-10-19) October 19, 1984 (age 39)Los Angeles, California, U.S.GenresFunkprogressive R&B[1]soulelectronicaacid jazz[2]psychedeliacrossover thrashyacht rock[3]astral jazz[3]OccupationsMusician, producer, songwriter, singerInstrumentsBass guitar, vocalsDiscographyThundercat discographyYears active2000–presentLabelsBrainfeede...

 

В Википедии есть статьи о других людях с фамилией Детуш. Филипп ДетушPhilippe Destouches Портрет Филиппа Детуша работы Никола де Ларжильера (1741 г.) Имя при рождении Филипп Нерико (Néricault) Дата рождения 9 апреля 1680(1680-04-09) Место рождения Тур Дата смерти 4 июля 1754(1754-07-04) (74 года) Место сме�...

В Википедии есть статьи о других людях с фамилией Стафф. Леопольд Стаффпол. Leopold Staff Леопольд Стафф, 1905 год Дата рождения 14 ноября 1878(1878-11-14)[1] Место рождения Львов, Цислейтания, Австро-Венгрия[2] Дата смерти 31 мая 1957(1957-05-31)[2][3][…] (78 лет) Место смерти Скаржиско-...

 

Number representing a continuous quantity For the real numbers used in descriptive set theory, see Baire space (set theory). In mathematics, a real number is a number that can be used to measure a continuous one-dimensional quantity such as a distance, duration or temperature. Here, continuous means that pairs of values can have arbitrarily small differences.[a] Every real number can be almost uniquely represented by an infinite decimal expansion.[b][1] The real number...

 

Period of Dutch history from 1588 to 1672 Part of a series on the History of the Netherlands Early Prehistory of the Netherlands Germanic tribes Frisii, Batavi, Cananefates, Chamavi Roman era Migration Period Frisians, Franks, Saxons Medieval Frisian Kingdom Frankish Kingdom Middle Francia Lotharingia Lower Lotharingia Holy Roman Empire Burgundian Netherlands Habsburg Netherlands Seventeen Provinces Spanish Netherlands Republic Eighty Years' War Dutch Golden Age (painting) Dutch colonial empi...

U.S. Army anti-ballistic missile launch site This article is about the military base near Fairbanks, Alaska. For the census-designated place, see Fort Greely, Alaska. For the former military base on Kodiak Island, see Base Support Unit Kodiak. A Ground-Based Interceptor, designed to destroy incoming ICBMs, is lowered into its silo at the missile defense complex at Fort Greely, July 22, 2004. Fort Greely is a United States Army launch site for anti-ballistic missiles located about 100 miles (...

 

German poet and musician (1739–1791) Schubart redirects here. For other uses, see Schubart (disambiguation). Christian Friedrich Daniel Schubart Christian Friedrich Daniel Schubart (24 March 1739 – 10 October 1791), was a German poet, organist, composer, and journalist. He was repeatedly punished for his social-critical writing and spent ten years in severe conditions in jail. Life Born at Obersontheim in Swabia, he entered the University of Erlangen in 1758 as a student of theology. He l...