FASTA formaat | |
---|---|
Failinimelaiendid |
.fasta, .fas, .fa, .fna, .ffn, .faa, .mpfa, .frn |
Arendajad |
David J. Lipman William R. Pearson |
Avaldatud | 1985 |
Valdkond | Bioinformaatika |
Laiendatud versioon | FASTQ formaat |
veebileht |
www |
Bioinformaatikas on FASTA tekstipõhine formaat, milles nukleotiidide või aminohapete järjestused esitatakse nendele vastavate ühetäheliste koodide järjestusena. FASTA formaadis järjestus algab ühe kirjeldava koodireaga millele järgnevad read järjestuseandmetega. [1] FASTA formaat võimaldab lisada järjestusele täpsustavaid identifikaatoreid. [2]
FASTA formaat loodi David J. Lipman ja William R. Pearson’i arendatud FASTA tarkvarapaketi raames, mida kirjeldati esimest korda 1985. aastal.[3] Sellel põhjusel nimetatakse FASTA formaati alternatiivselt ka Pearson’i formaadiks.
Kirjelduse rida on FASTA formaadis alati esimene ja seda eristab järjestuseandmetest “suurem-kui” (>) märk rea ees [2]. Sõna mis järgneb “>” sümbolile on järjestuse identifikaator. Kindlasti ei tohi olla pärast “>” sümbolit tühikut. Identifikaatorile võivad järgnevad täpsemad kirjeldused või kommentaarid järjestuse kohta, mille lisamine on valikuline. [4]
Näide järjestusest kirjeldava reaga [2]:
>P01013 GENE X PROTEIN (OVALBUMIN-RELATED)
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
FLFLIKHNPTNTIVYFGRYWSP
Riiklik Biotehnoloogia Infokeskus (ingl k National Center for Biotechnology Information, NCBI) on defineerinud standardid nukleotiidide identifikaatoritele kirjelduse real, mis on unikaalsed ning järgivad spetsiifilisi vormistusnõudeid. Selline identifikaator võimaldab andmebaasist saadud järjestust märgistada viitega andmebaasi registri kohta. Identifikaator algab kahe- või kolmetähelise kombinatsiooniga, millele järgnevad üks või enam andmevälja, mis on algsest tähekombinatsioonist püstkriipsudega eraldatud. [5]
NCBI defineeritud identifikaatorid[5]:
Tüüp | Formaat | Näited |
---|---|---|
kohalik (puudub andmebaasi viide) | lcl|integer
|
lcl|123
|
GenInfo backbone seqid | bbs|integer
|
bbs|123
|
GenInfo backbone moltype | bbm|integer
|
bbm|123
|
GenInfo import ID | gim|integer
|
gim|123
|
GenBank | gb|accession|locus
|
gb|M73307|AGMA13GT
|
EMBL | emb|accession|locus
|
emb|CAM43271.1|
|
PIR | pir|accession|name
|
pir||G36364
|
SWISS-PROT | sp|accession|name
|
sp|P01013|OVAX_CHICK
|
patent | pat|country|patent|sequence-number
|
pat|US|RE33188|1
|
grandieelne patent | pgp|country|application-number|sequence-number
|
pgp|EP|0238993|7
|
RefSeq | ref|accession|name
|
ref|NM_010450.1|
|
üldine andmebaasi viide (viide andmebaasile mis siit nimekirjast puudub) |
gnl|database|integer
|
gnl|taxon|9606
|
GenInfo integreeritud andmebaas | gi|integer
|
gi|21434723
|
DDBJ | dbj|accession|locus
|
dbj|BAC85684.1|
|
PRF | prf|accession|name
|
prf||0806162C
|
PDB | pdb|entry|chain
|
pdb|1I4L|D
|
kolmanda osapoole GenBank | tpg|accession|name
|
tpg|BK003456|
|
kolmanda osapoole EMBL | tpe|accession|name
|
tpe|BN000123|
|
kolmanda osapoole DDBJ | tpd|accession|name
|
tpd|FAA00017|
|
TrEMBL | tr|accession|name
|
tr|Q90RT2|Q90RT2_9HIV1
|
Kirjelduse reale järgnevad andmed järjestuse kohta. Soovitatavalt on järjestus esitatud kujul, kus on maksimaalselt 80 karakterit rea kohta. Järjestuses ei tohi olla karaktereid, mis standardiseeritud nõuetele ei vasta. Erinevate järjestuste andmeid võib ühes FASTA failis olla mitu, sel juhul peavad nad olema eraldatud uue kirjeldava rea ja “>” sümboliga. [2] [4]
Järjestused esitatakse standardse Rahvusvahelise Puhta ja Rakenduskeemia Liidu (inglise keelest akronüüm IUPAC) aminohappe ja nukleiinhappe koodivorminduses mõningate eranditega: väikesed tähed on aktsepteeritud, sidekriipsudega märgitakse teadmata pikkusega lünkasid järjestuses ning aminohapete puhul on U ja * aktsepteeritavad tähised. Enne järjestuse esitamist peab numbrid konverteerima kirjatähtedeks või need järjestusest eemaldama (näiteks võib märgistada N teadmata nukleotiidi kohal või X teadmata aminohappejäägi kohal). [2]
FASTA failidel ei ole standardiseeritud failinimelaiendit. Mõned näited enimkasutatud nimelaienditest on “.fasta”, “.fna” või “.txt." [4]
FASTQ formaat on laiendus originaalsest FASTA formaadist mis sisaldab lisaks järjestusele ja selle kirjeldusele ka kvaliteediskoori. [6]