Variant Call Format

Variant Call Format
Dateiendung: vcf
Entwickelt von: VCFtools
Aktuelle Version 4.3
Erweitert von: CSV (Dateiformat)
https://samtools.github.io/hts-specs/


Das Variant Call Format (VCF) ist ein wichtiges Text-Format in der Bioinformatik zur Speicherung von Gensequenz-Variationen. Das Format wurde mit dem Aufkommen von groß angelegten Genotypisierungs- und DNA-Sequenzierungs-Projekten, wie dem 1000-Genome-Projekt, entwickelt. Andere Formate für genetische Daten wie das General feature format (GFF) speicherten alle genetischen Daten, von denen viele redundant sind, da sie über die Genome hinweg gemeinsam genutzt werden. Bei Verwendung des Variant-Call-Formats müssen nur die Variationen zusammen mit einem Referenzgenom gespeichert werden.

Die neuste Version des Standards ist derzeit 4.3[1][2]. Version 4.4 ist aktuell in Entwicklung[3].

Es gibt auch ein Genomic VCF (gVCF) erweitertes Format, das zusätzliche Informationen über "Blöcke", die mit der Referenz übereinstimmen, und deren Qualitäten enthält.[4] Für die Bearbeitung und Manipulation der Dateien steht eine Reihe von Tools zur Verfügung.[5] [6]

Aufbau des VCF-Header

[Bearbeiten | Quelltext bearbeiten]

Der Header beginnt die Datei und enthält Metadaten, die den Hauptteil der Datei beschreiben. Header-Zeilen werden als mit # beginnend gekennzeichnet. Spezielle Schlüsselwörter im Header werden mit ## gekennzeichnet. Empfohlene Schlüsselwörter sind fileformat, fileDate und reference.

Der Header enthält Schlüsselwörter, die optional semantisch und syntaktisch die im Körper der Datei verwendeten Felder beschreiben, insbesondere INFO, FILTER und FORMAT (siehe unten).

Aufbau des VCF-Body

[Bearbeiten | Quelltext bearbeiten]

Der Body einer VCF folgt auf die Kopfzeile und ist durch Tabulatoren in 8 Pflichtspalten und eine unbegrenzte Anzahl von optionalen Spalten unterteilt, die zur Aufzeichnung anderer Informationen über die Probe(n) verwendet werden können. Wenn zusätzliche Spalten verwendet werden, wird die erste optionale Spalte verwendet, um das Format der Daten in den folgenden Spalten zu beschreiben.

Name Kurzbeschreibung
1 CHROM Der Name der Sequenz (typischerweise ein Chromosom), auf der die Variation aufgerufen wird. Diese Sequenz wird üblicherweise als "Referenzsequenz" bezeichnet, d. h. die Sequenz, gegen die die gegebene Probe variiert.
2 POS Die 1-basierte Position der Variation auf der gegebenen Sequenz.
3 ID Der Bezeichner der Variation, z. B. ein dbSNP rs Bezeichner, oder wenn unbekannt ein ".". Mehrere Bezeichner sollten durch Semikolon ohne Leerzeichen getrennt werden.
4 REF Die Referenzbase (oder Basen im Falle einer indel) an der angegebenen Position auf der angegebenen Referenzsequenz.
5 ALT Die Liste der alternativen Allelen dieser Position.
6 QUAL Eine Qualitätsbewertung, die mit der Inferenz der gegebenen Allele verbunden ist.
7 FILTER Ein Flag, das anzeigt, welche einer gegebenen Menge von Filtern die Variation passiert hat.
8 INFO Eine erweiterbare Liste von Schlüssel-Wert-Paaren (Feldern), die die Variation beschreiben. Siehe unten für einige gängige Felder. Mehrere Felder werden durch Semikolons mit optionalen Werten im Format getrennt: <key>=<data>[,data].
9 FORMAT Eine (optionale) erweiterbare Liste von Feldern zur Beschreibung der Proben. Siehe unten für einige gängige Felder.
+ SAMPLEs Für jede (optionale) Probe, die in der Datei beschrieben wird, werden Werte für die in FORMAT aufgeführten Felder angegeben
##fileformat=VCFv4.2
##FILTER=<ID=PASS,Description="All filters passed">
##samtoolsVersion=1.12+htslib-1.12
##samtoolsCommand=samtools mpileup -d 250 -ugf Homo_sapiens.GRCh37.dna.primary_assembly.gz read.sorted.bam
##reference=file:Homo_sapiens.GRCh37.dna.primary_assembly.gz
##contig=<ID=1,length=249250621>
##contig=<ID=10,length=135534747>
##contig=<ID=11,length=135006516>
##contig=<ID=12,length=133851895>
##contig=<ID=13,length=115169878>
##contig=<ID=14,length=107349540>
##ALT=<ID=*,Description="Represents allele(s) other than observed.">
##INFO=<ID=INDEL,Number=0,Type=Flag,Description="Indicates that the variant is an INDEL.">
##INFO=<ID=RPB,Number=1,Type=Float,Description="Mann-Whitney U test of Read Position Bias (bigger is better)">
##INFO=<ID=MQB,Number=1,Type=Float,Description="Mann-Whitney U test of Mapping Quality Bias (bigger is better)">
##INFO=<ID=MQ0F,Number=1,Type=Float,Description="Fraction of MQ0 reads (smaller is better)">
##FORMAT=<ID=PL,Number=G,Type=Integer,Description="List of Phred-scaled genotype likelihoods">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##bcftools_callVersion=1.12+htslib-1.12
##bcftools_callCommand=call -vmO z -o 'variants.vcf.gz' 'read.pileup'; Date=Sun May 27 15:04:45 2021
#CHROM	POS	       ID	REF	ALT	QUAL	FILTER	INFO	 FORMAT	read.sorted.bam
3	10035634	.	C	T	35.3302	.	DP=16;VDB=0.907611;SGB=-0.636426;RPB=0.966012;MQB=0.428703;BQB=0.0628765;MQ0F=0;AC=1;AN=2;DP4=7,0,7,0;MQ=49	GT:PL	0/1:68,0,85
3	10035648	.	G	A	43.0805	.	DP=17;VDB=0.539658;SGB=-0.636426;RPB=0.887766;MQB=0.621145;BQB=0.708895;MQ0F=0;AC=1;AN=2;DP4=10,0,7,0;MQ=54	GT:PL	0/1:76,0,114
3	10035654	.	C	A	42.1818	.	DP=16;VDB=0.0485232;SGB=-0.616816;RPB=0.686279;MQB=0.863243;BQB=0.0253122;MQ0F=0;AC=1;AN=2;DP4=10,0,6,0;MQ=57	GT:PL	0/1:75,0,98
3	10035655	.	A	G	42.1042	.	DP=16;VDB=0.0485232;SGB=-0.616816;RPB=0.686279;MQB=0.863243;BQB=0.0292791;MQ0F=0;AC=1;AN=2;DP4=10,0,6,0;MQ=57	GT:PL	0/1:75,0,105
3	10035685	.	T	C	57.2592	.	DP=28;VDB=0.877004;SGB=-0.680642;RPB=0.877755;MQB=0.933359;BQB=0.0384;MQ0F=0;AC=1;AN=2;DP4=16,0,12,0;MQ=58	GT:PL	0/1:90,0,109
3	10035697	.	G	A	67.1854	.	DP=29;VDB=0.67865;SGB=-0.676189;RPB=0.923174;MQB=1;BQB=0.628158;MQ0F=0;AC=1;AN=2;DP4=17,0,11,0;MQ=60	GT:PL	0/1:100,0,122
3	10035774	.	A	G	27.9794	.	DP=49;VDB=0.245012;SGB=-0.692976;RPB=0.976675;MQB=3.31401e-07;BQB=1.09401e-05;MQ0F=0.0204082;AC=1;AN=2;DP4=22,0,26,0;MQ=37	GT:PL	0/1:61,0,112
3	10035778	.	AAGTCT	A	70.9586	.	INDEL;IDV=24;IMF=0.5;DP=48;VDB=0.14127;SGB=-0.692914;MQ0F=0.0208333;AC=1;AN=2;DP4=21,0,25,0;MQ=35	GT:PL	0/1:105,0,255
3	10037079	.	T	C	58.4147	.	DP=26;VDB=0.120141;SGB=-0.692976;MQ0F=0.0769231;AC=2;AN=2;DP4=0,0,26,0;MQ=12	GT:PL	1/1:88,78,0
3	10044262	.	G	A	23.0139	.	DP=5;VDB=0.309755;SGB=-0.511536;RPB=0.333333;MQB=1;BQB=0;MQ0F=0;AC=1;AN=2;DP4=2,0,3,0;MQ=60	GT:PL	0/1:56,0,26

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. VCF Specification. Abgerufen am 29. Mai 2021.
  2. Specifications of SAM/BAM and related high-throughput sequencing file formats. Abgerufen am 29. Mai 2021.
  3. VCF Specification 4.4. Abgerufen am 29. Mai 2021.
  4. GVCF - Genomic Variant Call Format. In: GATK. Broad Institute;
  5. VCFtools auf Github.io. Abgerufen am 29. Mai 2021.
  6. BCFtools auf Github.io. Abgerufen am 29. Mai 2021.