Projecte dels 1000 genomes

Projecte dels 1000 genomes
	;
Dades
Tipus	projecte ; Consorci de recerca
Lloc web	internationalgenome.org

El Projecte dels 1000 genomes (en anglès, 1000 Genomes Project, també abreviat 1KGP), nascut el gener de 2008, és un exemple d'esforç científic internacional per aconseguir un detallat catàleg de la variació genètica en humans.^[1] El projecte aspirava a seqüenciar, en els següents tres anys, un mínim de 1000 genomes pertanyents a participants anònims de diferents grups ètnics humans, gràcies a les tecnologies de seqüenciació de nova generació, molt més ràpides i barates que les disponibles anteriorment. El 2010 el projecte acabà la seva fase pilot, la qual va ser descrita amb detall en una publicació a la revista científica Nature.^[1] El 2012 es va anunciar la seqüenciació de 1092 genomes^[2] i el 2015 es van publicar els resultats finals del projecte, que comprenen la variació genètica entre 2504 individus de 26 problacions diferents, i les perspectives de recerca futura en dos articles més, també a Nature.^[3]^[4]

El projecte

Objectius

El principal objectiu del Projecte dels 1000 genomes era crear un catàleg complet i detallat de la variació genètica en humans que pogués ser usat en estudis d'associació, per exemple, per determinar la relació entre la variació genètica i certes malalties. El consorci comptava amb descobrir més del 95% de les variants presents al genoma humà (SNP, CNV, indels, etc), fins i tot amb freqüències al·lèliques mínimes (MAF, minor allele frequency) inferiors a l'1%. A més, també aspirava a estimar totes les freqüències de les variants trobades en cadascuna de les poblacions estudiades, els haplotips als quals pertanyen i els possibles patrons de desequilibri de lligament.

Objectius secundaris serien la millora de plataformes de genotipat basades en SNP i sondes, com també la millora de la seqüència del genoma humà de referència. A més, les dades generades haurien d'esdevenir una eina molt potent per a fer estudis de regions sota selecció, variació en les diferents poblacions humanes i entendre millor els processos subjacents a la mutació i recombinació.

Fases del projecte


Fase del projecte	Individus analitzats	Poblacions d'origen	Troballes moleculars	Cobertura de l'anàlisi
Fase pilot ^[1]	179	4	15 milions de SNP 1 milió de petites indels 20.000 variants estructurals	Més del 95% dels SNP amb freqüència >5%
Fase I ^[2]	1092	14	28 milions de SNP 1,4 milions de petites indels 14.000 delecions	Un 98% dels SNP amb freqüència >1%
Fase II ^[3]	2504	26	84,7 milions de SNP 3,6 milions de petites indels 60.000 variants estructurals	Més del 99% dels SNP amb freqüència >1%

Mostres genòmiques humanes

Totes les mostres usades en el Projecte dels 1000 genomes provenien de donants voluntaris pertanyents a les poblacions descrites en la taula inferior.^[5] Com que l'objectiu del projecte era simplement catalogar la diversitat genètica humana, no va ser necessària cap informació fenotípica o mèdica dels donants. Eren d'especial interès, però, mostres provinents d'altres projectes, com ara la col·lecció de HapMap, ENCODE, estudis d'associació (GWAS), estudis de variació estructural, estudis d'expressió gènica, etc,^[6] ja que contenien informació extra que resultava de molta utilitat en el tractament i completament de les dades.

ID	Població d'origen de les mostres
ASW	Africans d'ascendència (mostres recollides al sud-oest dels EUA)
ACB	Africans-caribencs a Barbados
BEB	Bengalesos a Bangladesh
GBR	Britànics d'Anglaterra i Escòcia
CDX	Xinesos Dai a Xishuangbanna, Xina
CLM	Colombians a Colòmbia
ESN	Esans a Nigèria
FIN	Finlandesos a Finlàndia
GWD	Gambians i Mandics a West Coast Division, Gàmbia
GIH	Indis Gujarati (mostres recollides a Texas, EUA)
CHB	Xinesos Han a Beijing, Xina
CHS	Xinesos Han del sud, Xina
IBS	Ibèrics a Espanya
ITU	Indis Telegu (mostres recolldes al Regne Unit)
JPT	Japonesos a Tòquio, Japó
KHV	Poble Kinh a Ho Chi Minh City, Vietnam
LWK	Poble Luhya a Webuye, Kenya
MSL	Poble Mende a Sierra Leone
MXL	Mexicans d'ascendència (mostres recollides a Los Angeles, EUA)
PEL	Peruans a Lima, Perú
PUR	Puertoriquenys a Puerto Rico
PJL	Poble Panjabi a Lahore, Paquistan
STU	Poble Sri Lankan Tamil al Regne Unit
TSI	Toscana a Itàlia
YRI	Poble Ioruba a Ibadan, Nigèria
CEU	Europeus nòrics-orientals (mostres recollides a Utah, EUA)

Anàlisis genòmiques

La informació genètica dels 2504 individus estudiats es va obtenir combinant les tècniques de seqüenciació total del genoma (WGS, whole genome sequencing), seqüenciació exòmica profunda i microarrays de SNP d'alta densitat.^[8] La caracterització de les variants es va fer d'acord a un set de 24 eines d'anàlisi de seqüències.

Resultats del projecte

En total, el Projecte dels 1000 genomes va descobrir i caracteritzar més de 88 milions de variants: 84,7 milions de SNP, 3,6 milions de petites indels i 60.000 variants estructurals,^[8] les quals van ser integrades en un haplotip scaffold d'alta qualitat. Mitjançant diferents anàlisis, es va poder estudiar amb detall la història de diferents poblacions humanes i la demografia de les seves poblacions avantpassades, i també millorar la resolució dels estudis genètics d'associació. A més, es varen fer altres descobertes importants:

Variació genòmica humana

En comparació amb la seqüència de referència humana, un genoma aleatori hi difereix en 4-5 milions de posicions nucleotídiques (dels 3 bilions que té en total).
La població africana o d'origen africà, com és d'esperar segons la hipòtesi d'expansió humana Out of Africa, és la que presenta major variació genètica. Així doncs, dos genomes africans aleatoris difereixen en uns 5 milions de posicions, mentre que dos genomes europeus o asiàtics ho fan més aviat en 4 milions. Les poblacions americanes difereixen en un nombre intermedi, ja que molt sovint són mescles de les poblacions mencionades anteriorment.

Variants d'un únic nucleòtid

El 99,9% d'aquestes diferències són variants de tipus SNP o petites indels, les quals afecten un o pocs més nucleòtids.

De la variació continguda en un genoma típic en relació a les variants que afecten la funció gènica, unes 150 són variants de truncament proteic (nonsense, provoquen l'aparició d'un codó de terminació), unes 10.000 són variants de canvi de sentit (missense, provoquen la substitució d'un aminoàcid per un altre) i unes 500.000 són variants localitzades en regions reguladores com ara promotors, enhancers o llocs d'unió a factors de transcripció.
Unes 2.000 variants per genoma es van poder associar a caràcters complexos mitjançant estudis d'associació GWAS.
Es va estimar que entre 24 i 30 variants per genoma estan implicades en el desenvolupament de malalties rares mitjançant la base de dades ClinVar.

Variants estructurals

Pel que fa a les variants estructurals, les quals són molt menys freqüents que els SNP, afecten més posicions genòmiques, ja que abarquen regions més grans. Entre elles, es van trobar 1.000 grans delecions, 160 CNV (copy number variant, variant de nombre de còpies), 915 insercions de l'element transposable Alu, 128 insercions de l'element transposable L1, 51 insercions de SVA, 10 grans inversions i 4 NUMT (nuclear mitocondrial DNA, insercions de DNA mitocondrial al DNA nuclear).

Referències

↑ ^1,0 ^1,1 ^1,2 Durbin, Richard M.; Altshuler, David; Durbin, Richard M.; Abecasis, Gonçalo R.; Bentley, David R. «A map of human genome variation from population-scale sequencing» (en anglès). Nature, 467, 7319, 10-2010, pàg. 1061–1073. DOI: 10.1038/nature09534. ISSN: 1476-4687. PMC: PMC3042601. PMID: 20981092.
↑ ^2,0 ^2,1 McVean, Gil A.; Altshuler (Co-Chair), David M.; Durbin (Co-Chair), Richard M.; Abecasis, Gonçalo R.; Bentley, David R. «An integrated map of genetic variation from 1,092 human genomes» (en anglès). Nature, 491, 7422, 11-2012, pàg. 56–65. DOI: 10.1038/nature11632. ISSN: 1476-4687. PMC: PMC3498066. PMID: 23128226.
↑ ^3,0 ^3,1 Auton, Adam; Abecasis, Gonçalo R.; Altshuler, David M.; Durbin, Richard M.; Abecasis, Gonçalo R. «A global reference for human genetic variation» (en anglès). Nature, 526, 7571, 10-2015, pàg. 68–74. DOI: 10.1038/nature15393. ISSN: 1476-4687. PMC: PMC4750478. PMID: 26432245.
↑ Sudmant, Peter H.; Rausch, Tobias; Gardner, Eugene J.; Handsaker, Robert E.; Abyzov, Alexej «An integrated map of structural variation in 2,504 human genomes» (en anglès). Nature, 526, 7571, 10-2015, pàg. 75–81. DOI: 10.1038/nature15394. ISSN: 1476-4687. PMC: PMC4617611. PMID: 26432246.
↑ «International Consortium Announces the 1000 Genomes Project» (en anglès). [Consulta: 23 juny 2021].
↑ «1000 Genomes | Meeting report» (en anglès). [Consulta: 23 juny 2021].
↑ Oleksyk, Taras K.; Brukhin, Vladimir; O’Brien, Stephen J. «The Genome Russia project: closing the largest remaining omission on the world Genome map». GigaScience, 4, 1, 13-11-2015. DOI: 10.1186/s13742-015-0095-0. ISSN: 2047-217X. PMC: PMC4644275. PMID: 26568821.
↑ ^8,0 ^8,1 Devuyst, Olivier «The 1000 Genomes Project: Welcome to a New World» (en anglès). Peritoneal Dialysis International, 35, 7, 01-12-2015, pàg. 676–677. DOI: 10.3747/pdi.2015.00261. ISSN: 0896-8608. PMC: PMC4690620. PMID: 26703842.

Enllaços externs

[:1-1] 1,0 ^1,1 ^1,2 Durbin, Richard M.; Altshuler, David; Durbin, Richard M.; Abecasis, Gonçalo R.; Bentley, David R. «A map of human genome variation from population-scale sequencing» (en anglès). Nature, 467, 7319, 10-2010, pàg. 1061–1073. DOI: 10.1038/nature09534. ISSN: 1476-4687. PMC: PMC3042601. PMID: 20981092.

[:2-2] 2,0 ^2,1 McVean, Gil A.; Altshuler (Co-Chair), David M.; Durbin (Co-Chair), Richard M.; Abecasis, Gonçalo R.; Bentley, David R. «An integrated map of genetic variation from 1,092 human genomes» (en anglès). Nature, 491, 7422, 11-2012, pàg. 56–65. DOI: 10.1038/nature11632. ISSN: 1476-4687. PMC: PMC3498066. PMID: 23128226.

[:3-3] 3,0 ^3,1 Auton, Adam; Abecasis, Gonçalo R.; Altshuler, David M.; Durbin, Richard M.; Abecasis, Gonçalo R. «A global reference for human genetic variation» (en anglès). Nature, 526, 7571, 10-2015, pàg. 68–74. DOI: 10.1038/nature15393. ISSN: 1476-4687. PMC: PMC4750478. PMID: 26432245.

[4] Sudmant, Peter H.; Rausch, Tobias; Gardner, Eugene J.; Handsaker, Robert E.; Abyzov, Alexej «An integrated map of structural variation in 2,504 human genomes» (en anglès). Nature, 526, 7571, 10-2015, pàg. 75–81. DOI: 10.1038/nature15394. ISSN: 1476-4687. PMC: PMC4617611. PMID: 26432246.

[5] «International Consortium Announces the 1000 Genomes Project» (en anglès). [Consulta: 23 juny 2021].

[6] «1000 Genomes | Meeting report» (en anglès). [Consulta: 23 juny 2021].

[7] Oleksyk, Taras K.; Brukhin, Vladimir; O’Brien, Stephen J. «The Genome Russia project: closing the largest remaining omission on the world Genome map». GigaScience, 4, 1, 13-11-2015. DOI: 10.1186/s13742-015-0095-0. ISSN: 2047-217X. PMC: PMC4644275. PMID: 26568821.

[:0-8] 8,0 ^8,1 Devuyst, Olivier «The 1000 Genomes Project: Welcome to a New World» (en anglès). Peritoneal Dialysis International, 35, 7, 01-12-2015, pàg. 676–677. DOI: 10.3747/pdi.2015.00261. ISSN: 0896-8608. PMC: PMC4690620. PMID: 26703842.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Dades

Tipus	projecte Consorci de recerca

Lloc web	internationalgenome.org