FASTA formaat

FASTA formaat
Failinimelaiendid
 .fasta, .fas, .fa, .fna, .ffn, .faa, .mpfa, .frn
Arendajad David J. Lipman
William R. Pearson
Avaldatud 1985
Valdkond Bioinformaatika
Laiendatud versioon FASTQ formaat
veebileht www.ncbi.nlm.nih.gov/BLAST/fasta.shtml

Bioinformaatikas on FASTA tekstipõhine formaat, milles nukleotiidide või aminohapete järjestused esitatakse nendele vastavate ühetäheliste koodide järjestusena. FASTA formaadis järjestus algab ühe kirjeldava koodireaga millele järgnevad read järjestuseandmetega. [1] FASTA formaat võimaldab lisada järjestusele täpsustavaid identifikaatoreid. [2]

FASTA formaat loodi David J. Lipman ja William R. Pearson’i arendatud FASTA tarkvarapaketi raames, mida kirjeldati esimest korda 1985. aastal.[3] Sellel põhjusel nimetatakse FASTA formaati alternatiivselt ka Pearson’i formaadiks.

Kirjelduse rida

[muuda | muuda lähteteksti]

Kirjelduse rida on FASTA formaadis alati esimene ja seda eristab järjestuseandmetest “suurem-kui” (>) märk rea ees [2]. Sõna mis järgneb “>” sümbolile on järjestuse identifikaator. Kindlasti ei tohi olla pärast “>” sümbolit tühikut. Identifikaatorile võivad järgnevad täpsemad kirjeldused või kommentaarid järjestuse kohta, mille lisamine on valikuline. [4]

Näide järjestusest kirjeldava reaga [2]:

>P01013 GENE X PROTEIN (OVALBUMIN-RELATED)
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
FLFLIKHNPTNTIVYFGRYWSP

NCBI identifikaatorid

[muuda | muuda lähteteksti]

Riiklik Biotehnoloogia Infokeskus (ingl k National Center for Biotechnology Information, NCBI) on defineerinud standardid nukleotiidide identifikaatoritele kirjelduse real, mis on unikaalsed ning järgivad spetsiifilisi vormistusnõudeid. Selline identifikaator võimaldab andmebaasist saadud järjestust märgistada viitega andmebaasi registri kohta. Identifikaator algab kahe- või kolmetähelise kombinatsiooniga, millele järgnevad üks või enam andmevälja, mis on algsest tähekombinatsioonist püstkriipsudega eraldatud. [5]

NCBI defineeritud identifikaatorid[5]:

Tüüp Formaat Näited
kohalik (puudub andmebaasi viide) lcl|integer

lcl|string

lcl|123

lcl|hmm271

GenInfo backbone seqid bbs|integer bbs|123
GenInfo backbone moltype bbm|integer bbm|123
GenInfo import ID gim|integer gim|123
GenBank gb|accession|locus gb|M73307|AGMA13GT
EMBL emb|accession|locus emb|CAM43271.1|
PIR pir|accession|name pir||G36364
SWISS-PROT sp|accession|name sp|P01013|OVAX_CHICK
patent pat|country|patent|sequence-number pat|US|RE33188|1
grandieelne patent pgp|country|application-number|sequence-number pgp|EP|0238993|7
RefSeq ref|accession|name ref|NM_010450.1|
üldine andmebaasi viide
(viide andmebaasile mis siit nimekirjast puudub)
gnl|database|integer

gnl|database|string

gnl|taxon|9606

gnl|PID|e1632

GenInfo integreeritud andmebaas gi|integer gi|21434723
DDBJ dbj|accession|locus dbj|BAC85684.1|
PRF prf|accession|name prf||0806162C
PDB pdb|entry|chain pdb|1I4L|D
kolmanda osapoole GenBank tpg|accession|name tpg|BK003456|
kolmanda osapoole EMBL tpe|accession|name tpe|BN000123|
kolmanda osapoole DDBJ tpd|accession|name tpd|FAA00017|
TrEMBL tr|accession|name tr|Q90RT2|Q90RT2_9HIV1

Järjestuse andmed

[muuda | muuda lähteteksti]

Kirjelduse reale järgnevad andmed järjestuse kohta. Soovitatavalt on järjestus esitatud kujul, kus on maksimaalselt 80 karakterit rea kohta. Järjestuses ei tohi olla karaktereid, mis standardiseeritud nõuetele ei vasta. Erinevate järjestuste andmeid võib ühes FASTA failis olla mitu, sel juhul peavad nad olema eraldatud uue kirjeldava rea ja  “>” sümboliga. [2] [4]

Järjestused esitatakse standardse Rahvusvahelise Puhta ja Rakenduskeemia Liidu (inglise keelest akronüüm IUPAC) aminohappe ja nukleiinhappe koodivorminduses mõningate eranditega: väikesed tähed on aktsepteeritud, sidekriipsudega märgitakse teadmata pikkusega lünkasid järjestuses ning aminohapete puhul on U ja * aktsepteeritavad tähised. Enne järjestuse esitamist peab numbrid konverteerima kirjatähtedeks või need järjestusest eemaldama (näiteks võib märgistada N teadmata nukleotiidi kohal või X teadmata aminohappejäägi kohal). [2]

Failinimelaiendid

[muuda | muuda lähteteksti]

FASTA failidel ei ole standardiseeritud failinimelaiendit. Mõned näited enimkasutatud nimelaienditest on “.fasta”, “.fna” või “.txt." [4]

FASTQ formaat

[muuda | muuda lähteteksti]

FASTQ formaat on laiendus originaalsest FASTA formaadist mis sisaldab lisaks järjestusele ja selle kirjeldusele ka kvaliteediskoori. [6]

  1. "FASTA format". zhanggroup.org. Vaadatud 8. jaanuaril 2024.
  2. 2,0 2,1 2,2 2,3 2,4 "Query Input and database selection — BlastTopics 0.1.1 documentation". blast.ncbi.nlm.nih.gov. Vaadatud 8. jaanuaril 2024.
  3. Lipman, David J.; Pearson, William R. (22. märts 1985). "Rapid and Sensitive Protein Similarity Searches". Science (inglise). 227 (4693): 1435–1441. DOI:10.1126/science.2983426. ISSN 0036-8075.
  4. 4,0 4,1 4,2 "FASTA format". bioinformatics.intec.ugent.be. Originaali arhiivikoopia seisuga 8. jaanuar 2024. Vaadatud 8. jaanuaril 2024.
  5. 5,0 5,1 "NCBI C++ Toolkit Book". ncbi.github.io. Vaadatud 8. jaanuaril 2024.
  6. "FastQ Format". NGS Analysis (Ameerika inglise). 7. detsember 2017. Vaadatud 27. jaanuaril 2024.