Tipus | format de fitxer i textual data format (en) |
---|---|
Extensió | fastq i fq |
MIME | text/plain |
Magic number | 405345515F4944 |
Desenvolupador | Wellcome Sanger Institute (en) |
Extensió de | format FASTA |
El format FASTQ és un format de text pla utilitzat per emmagatzemar seqüències biològiques (normalment de nucleòtids) juntament amb llurs puntuacions de qualitat. Tant la lletra de la seqüència com la puntuació de qualitat estan codificades amb un únic caràcter ASCII per brevetat. Va ser dissenyat originalment al Wellcome Trust Sanger Institute per tal d'empaquetar les seqüències FASTA juntament amb les dades de qualitat.
Actualment podríem considerar que és l'estàndard de facto per tal d'emmagatzemar dades d'instruments de seqüenciació massiva.[1]
Un fitxer de format FASTQ normalment utilitza 4 línies per cada seqüència biològica.
Un exemple de seqüència en format FASTQ té l'aspecte següent:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+* ''))**55CCF>>>>>>CCCCCCC65
En la 4a línia, el caràcter '!' representa la menor qualitat possible mentre que '~' la major. Els caràcters ASCII que codifiquen de menor a major qualitat possible d'esquerra a dreta són:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
Un altre exemple del Sequence Read Archive amb una descripció que conté informació del sequenciador utilitzat i la longitud de la seqüència:
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC +SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC