Il Variant Call Format (VCF) è un formato di file testuale di tipo tab-separated usato in bioinformatica per raccogliere le varianti genomiche e attualmente è alla versione 4.3. Il formato permette di descrivere in formato tabulare le varianti genomiche più comuni di un genoma, insieme alla possibilità di inserire annotazioni e metadati[1].
È stato sviluppata a partire dal progetto 1000 Genome ed è stato adottato da diversi progetti tra cui UK10K, dbSNP e NHLBI Exome Project[2].
Sono stati sviluppati anche diversi strumenti e librerie software per poter manipolare il formato[3].
Il formato comprende un header, le cui linee sono identificate dai simboli ##
e da un body in cui sono elencate tutte le varianti. All'interno del body le informazioni relative ad ogni variante sono organizzate secondo 9 colonne obbligatorie.
##fileformat=VCFv4.3 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta ##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x> ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. 20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
Le 9 colonne obbligatorie sono identificate dal simbolo #
.
CHROM
- cromosoma su cui è presente la variante (es. chr1
o 1
)POS
- posizione su cui è stata fatta la chiamata della variante (1-based).ID
- identificativo della variante (es. rs del dbSNP). Se assente si legge il simbolo .
REF
- allele di riferimento presente sulla posizione specificata.ALT
- allele o lista di alleli alternativi.QUAL
- punteggio di qualità della lettura dell'allele alternativoFILTER
- esito o filtri con cui è stata selezionata la variante.INFO
- lista di annotazioni relative alla variante definite tramite una coppia <chiave>=[,valore]
.FORMAT
- lista di annotazioni relative alla relazione di ogni variante con ogni campione, riguardanti quindi il genotipo.Ulteriormente ci sono un numero di colonne pari al numero di campioni, in cui viene riportato il valore delle annotazioni presenti nella colonna FORMAT
. Il formato VCF supporta sia chiamata di varianti per un solo campione, sia per più campioni.