Dự án bản đồ gen người

Dự án Bản đồ gen Người (tiếng Anh: Human Genome Project - HGP) là một dự án nghiên cứu khoa học quốc tế có mục đích chính là xác định trình tự của các cặp cơ sở (base pairs) tạo thành phân tử DNA và xác định khoảng 25.000 gen trong bộ gen của con người.

Dự án khởi đầu vào năm 1990 với sự đứng đầu của James D. Watson. Bản phác thảo đầu tiên của bộ gen đã được cho ra đời vào năm 2000 và hoàn thiện vào năm 2003. Một dự án song song cũng được thực hiện bởi một công ty tư nhân tên là Celera Genomics. Tuy nhiên, hầu hết trình tự chuỗi được xác định là tại các trường đại học và các viện nghiên cứu từ các nước Mỹ, Canada, và Anh. Việc xác định toàn bộ bộ gen Người là một bước tiến quan trọng trong việc phát triển thuốc và các khía cạnh chăm sóc sức khỏe khác.

Trong khi mục đích chính của dự án là tìm hiểu sự cấu thành về mặt di truyền của loài người, dự án cũng tập trung vào các sinh vật khác như vi khuẩn Escherichia coli, ruồi dấm (fruit fly), và chuột trong phòng thí nghiệm.

Bộ gen của bất kì cá nhân nào (ngoại trừ trường hợp sinh đôi cùng trứng (identical twin) và nhân bản) đều là duy nhất. Vì thế dự án tập trung việc ánh xạ đến bộ gen người bao gồm cả việc xác định trình tự của nhiều biến thể của mỗi gen. Dự án không nghiên cứu toàn bộ DNA tìm thấy trong tế bào con người; một số vùng heterochromatic (chiếm khoảng 8%) vẫn chưa được xác định trình tự.

Tổ chức Bộ gen loài người viết tắt là HUGO (Human Genome Organisation), là một tổ chức phi chính phủ và phi lợi nhuận quốc tế, tham gia vào thực hiện các dự án này. Trong đó Ủy ban HUGO về danh mục gen (HGNC, HUGO Gene Nomenclature Committee) là ủy ban hoạt động mạnh nhất của HUGO hỗ trợ việc gán tên gen đơn nhất và biểu tượng cho mỗi gen con người^[1].

Dự án

Tiền đề

Sự bắt đầu của dự án là kết quả của công việc nhiều năm được hỗ trợ bởi Bộ Năng lượng Mỹ, trong các workshops vào 1984 ^[2] và 1986 và tuyên bố quan trọng kèm theo của Bộ Năng lượng Mỹ (US Department of Energy).^[3] Bản báo cáo năm 1986 tuyên bố vững chắc rằng, "Mục tiêu cuối cùng của sự kiện này là tìm hiểu về bộ gen Người" và "Sự hiểu biết về bộ gen Người là cần thiết đối với quá trình phát triển của y khoa và các ngành khoa học sức khỏe khác như tri thức về giải phẫu người." Tham khảo thêm ^[4]

James D. Watson từng là người đứng đầu Trung tâm Quốc gia về Nghiên cứu gen Người (National Center for Human Genome Research) tại Viện Sức khỏe Quốc gia (National Institutes of Health - NIH) ở Mỹ bắt đầu từ năm 1988. Chủ yếu vì bất đồng với ông chủ của mình, Bernadine Healy, về việc bản quyền gen nên ông đã buộc phải từ chức vào năm 1992. Thay thế ông là Francis Collins vào Tháng Tư 1993, và tên của trung tâm đổi thành Viện Nghiên cứu Bản đồ Gen Người Quốc gia (National Human Genome Research Institute - NHGRI) vào năm 1997.

Nguồn quỹ dự án đến 3 tỉ đôla được thành lập năm 1990 bởi Bộ Năng lượng Mỹ và Viện Sức khỏe Quốc gia Mỹ, với thời gian ước tinh 15 năm. Bên cạnh đó, còn có sự góp mặt của các nhà di truyền học từ Trung Quốc, Pháp, Đức, Nhật, và Vương Quốc Anh.

Nhờ vào sự hợp tác quốc tế rộng rãi và những cái tiến trong lĩnh vực gen học (genomics) (đặc biệt trong phân tích trình tự), cũng như những đột phá lớn trong kĩ thuật máy tính, phiên bản đầu tiên của bộ gen đã cho ra đời năm 2000 (được đồng tuyên bố bởi tống thống Mỹ Bill Clinton và Thủ tướng Anh Tony Blair vào ngày 26 Tháng Sáu, 2000).^[5] Và tiếp đến là phiên bản hoàn thiện được công bố Tháng Tư 2003, sớm hơn 2 năm so với dự định.^[6] Vào Tháng Năm 2006, một dấu mốc lớn đã đến trong quá trình hoàn thiện dự án, khi mà trình tự của chromosome cuối cùng đã được công bố trên tạp chí Nature.^[7]

Một thống kê minh họa của dự án cho thấy hầu hết bộ gen người đã được xác định trình tự vào cuối 2003. Tuy nhiên, vẫn còn một số vùng trong bộ gen người có thể được xem là chưa hoàn thành việc xác định trình tự. Đầu tiên là vùng trung tâm của mỗi nhiễm sắc thể (chromosome), còn gọi là tâm động (centromeres), là các chuỗi DNA có độ trùng lặp cao và rất khó để xác định trình tự dùng các kĩ thuật hiện nay. Tâm động gồm hàng triệu (có thể vài chục triêu) cặp base (base pair), và chúng hầu như chưa được xác định trình tự. Tiếp đến là phần cuối của các nhiễm sắc thể, gọi là telomeres, cũng là có độ trùng lặp cao, và hầu hết phần cuối của 46 chromosome cũng chưa được xác định trình tự. Thứ ba là có nhiều vị trí (loci) trong bộ gen mỗi cá nhân có chứa các gen trong các họ gia đình đa gen (multigene families) mà rất khó để hiểu rõ cấu trúc khi dùng kĩ thuật xác định trình tự shotgun - những họ đa gen này thường mã hóa cho các protein đóng vai trò quan trọng cho miễn dịch. Vì thế, có lẽ là centromeres và telomeres sẽ vẫn chưa được xác định trình tự cho tới khi có một kĩ thuật mới được phát triển hỗ trợ cho việc xác định trình tự chúng. Ngoài ra, có vài tá các khoảng trống (gap) nằm rải rác trong bộ gen mà một số trong chúng là khá lớn, và hi vọng là có thể kết thúc việc xác định trình tự các khoảng trống trong vòng vài năm tới.

Bản đồ gen đã được hoàn thành vào tháng 4 năm 2003.

Mục đích

Mục đích của dự án HGP là không chỉ xác định trình tự của hơn 3 tỉ cặp gốc (base pairs) trong bộ gen người với tỉ lệ lỗi nhỏ nhất, mà còn phải xác định cho được các gen trong khối dữ liệu khổng lồ đó. Mảng này của dự án vẫn còn được tiếp diễn, vì với số lượng tính toán ban đầu thì hiện có khoảng 22.000–23.000 genes trong bản đồ gen người,^{[cần dẫn nguồn]} một con số nhỏ hơn so với dự tính của các nhà khoa học.^{[cần dẫn nguồn]}

Một mục tiêu khác là phát triển các phương pháp nhanh hơn, hiệu quả hơn để xác định trình tự DNA và phân tích trình tự.

Trình tự của các DNA người được lưu trữ trong các cơ sở dữ liệu có thể truy cập từ Internet. Trung tâm Thông tin Công nghệ sinh học Quốc gia (National Center for Biotechnology Information) (và các tổ chức tương tự ở châu Âu và Nhật Bản) lưu giữ chuỗi trình tự gen trong cơ sở dữ liệu có tên gọi là Genbank, cùng với các chuỗi gen và protein giả định và đã được biết. Các tổ chức khác như University of California, Santa Cruz [1], và Ensembl [2] cung cấp thêm các dữ liệu bổ sung kèm các chú thích (annotation) và các công cụ hữu hiệu để hiển thị và tìm kiếm nó. Các chương trình máy tính cũng được phát triển để phân tích dữ liệu, vì các dữ liệu này rất khó trích rút thông tin nếu không có các chương trình này.

Quá trình xác định ranh giới giữa đoạn mã hóa gen và đoạn mã hóa cho các chức năng khác trong chuỗi DNA thô ban đầu được gọi là genome annotation và là một lĩnh vực trong tin sinh học. Trong khi các nhà sinh học đang có gắng tạo ra những lời chú thích tốt nhất, quá trình này diễn ra rất chậm chạp, và các chương trình máy tính ngày càng đáp ứng nhu cầu tốc độ dữ liệu vào cao của các dự án xác định trình tự bộ gen. Kĩ thuật tạo chú thích tốt nhất hiện nay dùng các mô hình thống kê có sử dụng sự song song giữa các chuỗi DNA và ngôn ngữ con người, dùng khái niệm từ khoa học máy tính ví dụ văn phạm hình thức (formal grammar).

Bộ gen của hai người khác nhau là khác nhau. Vì thế, dữ liệu được công bố của dự án không đại diện chính xác chuỗi của một hay mọi bộ gen người nào cả. Nó là bản đồ gen kết hợp từ nhiều người vô danh cung cấp. Vì thế, không thể sử dụng dữ liệu này để xác định sự khác biệt về bộ gen giữa 2 cá thể. Thay vào đó, dự án phục vụ cho mục đích này là HapMap.

Cách thức tiến hành

Mỗi tế bào con người chứa một nhân bên trong với 46 chromosome. Mỗi một chromosome chứa khoảng 30.000 đến 50.000 gen và các chuỗi không mã hóa xen kẽ. Cách đơn giản nhất để nghiên cứu các gen là dựa trên từng nucleotide một (A, T, G, X). Và cữ mỗi hai nucleotide thì tạo thành một cặp gốc (base pair). Các nhà khoa học ước tính có khoảng 3 tỉ cặp gốc như vậy.

Nguồn quỹ của dự án đến từ Chính phủ Mỹ thông qua Viện Sức khỏe Quốc gia tại Mỹ và các tổ chức Từ thiện tại Anh, tổ chức Wellcome Trust tài trợ cho Viện Sanger (mà sau này là Trung tâm Sanger) tại Anh Quốc, cũng như nhiều nhóm khác trên khắp thế giới. Bộ gen được chia nhỏ thành từng đoạn ngắn hơn; khoảng 150.000 cặp gốc mỗi đoạn. Những đoạn này gọi là "bacterial artificial chromosome", hay BAC, vì chúng có thể được chèn vào trong vi khuẩn và có thể được nhân đôi lên bằng bộ máy nhân đôi DNA bên trong vi khuẩn. Điều này có nghĩa là, cho dù bộ gen của các loài có khác nhau về độ phức tạp gì đi nữa, cơ chế hoạt động trong quá trình sinh học bên trong (cụ thể là nhân đôi DNA) đều giống nhau. Mỗi đoạn như vậy sau đó sẽ được xác định trình tự riêng lẻ dùng kĩ thuật "shotgun" và sau đó chúng sẽ được lắp ghép lại với nhau. Hướng này gọi là hướng tiếp cận "shotgun phân cấp" (hierarchical shotgun).

Bộ gen của ai đã được xác định trình tự?

Trong dự án HGP, các nhà khoa học thu thập mẫu máu (phụ nữ) và tinh trùng (đàn ông) từ một lượng lớn người cung cấp. Và chỉ một vài là được xử lý làm nguồn DNA. Vì thế, danh tính của các người cho là được bảo vệ và kể cả người cho lẫn nhà khoa học đều không biết mẫu của ai được chọn để xác định trình tự DNA. Tuy nhiên, trong cộng đồng gen học vẫn cho rằng hầu hết các DNA được công bố rộng rãi của dự án là xuất phát từ một người đàn ông vô danh tại Buffalo, NewYork (bí số RP11).^[8]

Các nhà khoa học của HGP đã dùng tế bào máu trắng từ mẫu máu của 2 người cho là nam và 2 người cho là nữ (chọn lựa ngẫu nhiên từ 20 người mỗi nhóm) -- từ đó mỗi người cho sẽ tạo ra một thư viện DNA độc lập. Và một trong các thư viện này (RP11) đã được dùng nhiều hơn so với các cái khác, chủ yếu vì vấn đề chất lượng.

Dù giai đoạn chính là xác định trình tự đã hoàn thành, các nghiên cứu về sự khác biệt DNA (giữa các cá thể) vẫn được tiếp tục trong dự án HapMap Quốc tế, với mục tiêu là xác định các mẫu single nucleotide polymorphism (SNP) (gọi là haplotype, hay "hap"). Các mẫu DNA cho dự án HapMap xuất phát từ tổng số 270 cá nhân: người Yoruba tại Ibadan, Nigeria; người Nhật tại Tokyo; người Hán tại Bắc Kinh; và nguồn từ Trung tâm Nghiên cứu Đa hình ở Người (Center for the Study of Human Polymorphisms|Centre d’Etude du Polymorphisms Humain - (CEPH)) ở Pháp, nơi nghiên cứu những người Mỹ có gốc từ Tây Âu và Bắc Âu.

Trong dự án của công ty tư nhân Celera Genomics, DNA từ 5 cá nhân khác nhau đã được nghiên cứu. Nhà khoa học đứng đầu của công ty thời đó, Craig Venter, sau này đã thừa nhận (trong một bức thư gởi tới tạp chí Science) rằng DNA của mình cũng nằm trong đó ^[9].

Và vào ngày 4 tháng 9 năm 2007, đội ngũ dẫn đầu bởi Craig Venter, đã xuất bản trình tự DNA đầy đủ của mình^[10], vén bức bàn về bộ gen gồm 6 tỉ kí tự của một cá nhân lần đầu tiên.

Lợi ích mang lại

Dù việc tìm hiểu nội dung của dữ liệu genome đã xác định chuỗi vẫn còn ở bước khởi đầu, nhưng người ta có thể tiên đoán được những lợi ích to lớn nó đem lại trong đột phá y khoa và công nghệ sinh học. Một số công ty, như Myriad Genetics đã bắt đầu đưa ra các giải pháp đơn giản để quản lý các kiểm tra về di truyền mà có thể cho biết sự dễ mắc phải các bệnh của người được kiểm tra, bao gồm ung thư vú, rối loạn hemostasis, cystic fibrosis, bệnh về thận và các bệnh khác.

Bên cạnh đó là các lợi ích hiển nhiên của khoa học sinh học. Ví dụ, nhà nghiên cứu về một loại bệnh ung thư cụ thể có thể chỉ tập trung tìm hiểu về một gen liên quan đến bệnh đó. Đồng thời, khi truy cập vào cơ sở dữ liệu chung về gen, nhà khoa học này có thể biết thông tin về gen này mà các nhà khoa học khác đã làm, bao gồm

cấu trúc 3 chiều của protein sản phẩm của nó,
chức năng của nó,
mối quan hệ tiến hóa với các gen khác của người, hay với gen của chuột/men/ruồi giấm,
các đột biến có hại có thể xảy ra,
khả năng tương tác với các gen khác,
mô (tissue) trong cơ thể mà gen này được kích hoạt,
các bệnh tật gắn với gen này
hay các loại dữ liệu khác.

Hơn nữa, hiểu biết về các quá trình gây bệnh ở mức độ sinh học phân tử có thể xác định các liệu pháp chữa trị mới.

Việc phân tích về sự giống nhau giữa các chuỗi DNA từ các sinh vật khác nhau cũng mở ra hướng mới trong việc nghiên cứu lý thuyết tiến hóa. Trong nhiều trường hợp, các câu hỏi về tiến hóa có thể được trả lời trong khía cạnh của sinh học phân tử.

Dự án đa dạng bộ gen người (Human Genome Diversity Project), một nghiên cứu phụ nhằm mục đích ánh xạ các DNA ở các hình thái khác nhau giữa các nhóm chủng tộc người, từng được xem là đã kết thúc, nay vẫn tiếp tục và cho các kết quả mới.

Chỉ dẫn

Tham khảo

^ . G. Gregory, K. F. Barlow u. a.: The DNA sequence and biological annotation of human chromosome 1. In: Nature. Band 441, Nummer 7091, Mai 2006, S. 315–321, ISSN 1476-4687. PMID 16710414.
^ Cook-Deegan R (1989). “The Alta Summit, December 1984”. Genomics. 5: 661–663.
^ Barnhart, Benjamin J. (1989). “DOE Human Genome Program”. Human Genome Quarterly. 1: 1. Retrieved 2005-02-03.
^ DeLisi, Charles (2001). “Genomes: 15 Years Later A Perspective by Charles DeLisi, HGP Pioneer”. Human Genome News. 11: 3–4. Bản gốc lưu trữ ngày 8 tháng 9 năm 2005. Truy cập ngày 4 tháng 3 năm 2008. Retrieved 2005-02-03.
^ “White House Press Release”. Truy cập ngày 22 tháng 7 năm 2006.
^ “BBC NEWS”. Truy cập ngày 22 tháng 7 năm 2006. Đã bỏ qua văn bản “Science/Nature” (trợ giúp); Đã bỏ qua văn bản “Human genome finally complete” (trợ giúp)
^ “Guardian Unlimited”. Truy cập ngày 22 tháng 7 năm 2006. Đã bỏ qua văn bản “UK Latest” (trợ giúp); Đã bỏ qua văn bản “Human Genome Project finalised” (trợ giúp)
^ Osoegawa, Kazutoyo (2001). “A Bacterial Artificial Chromosome Library for Sequencing the Complete Human Genome”. Genome Research. 11: 483–496.
^ Kennedy D (2002). “Not wicked, perhaps, but tacky”. Science. 297: 1237. PMID 12193755.
^ Levy S, Sutton G, Ng PC, Feuk L, Halpern AL (2007). “The Diploid Genome Sequence of an Individual Human”. PLoS Biology. 5 (10).Quản lý CS1: nhiều tên: danh sách tác giả (liên kết)

Xem thêm

Dự án bản đồ gen tinh tinh (Chimpanzee Genome Project)
Dự án bản đồ gen người neandectan (Neanderthal Genome Project)
EuroPhysiome
Các bằng sáng chế về gen
Genographic Project
Dự án bản đồ gen (Genome project)
Human Cytome Project
Dự án các biển thể người (Human Variome Project)
Dự án HapMap quốc tế (International HapMap Project)
Viện nghiên cứu bản đồ gen quốc gia (National Human Genome Research Institute)
Dự án bản đồ gen các nhân (Personal Genome Project)
Viện Sanger
Bản đồ gen của Craig Venter
Ủy ban HUGO về danh mục gen (HUGO Gene Nomenclature Committee)
Dự án bản đồ gen 1000

Liên kết ngoài

Delaware Valley Personalized Medicine Project Lưu trữ 2008-05-13 tại Wayback Machine Uses data from the Human Genome Project to help make medicine personal
National Human Genome Research Institute (NHGRI). NHGRI led the National Institutes of Health's (NIH's) contribution to the International Human Genome Project. This project, which had as its primary goal the sequencing of the three thousand million base pairs that make up human genome, was successfully completed in April 2003.
Human Genome News. Published from 1989 to 2002 by the US Department of Energy, this newsletter was a major communications method for coordination of the Human Genome Project. Complete online archives are available.
Project Gutenberg hosts e-texts for Human Genome Project, titled Human Genome Project, Chromosome Number # (# denotes 01-22, X and Y). This information is raw sequence, released in November 2002; access to entry pages with download links is available through http://www.gutenberg.org/etext/3501 for Chromosome 1 sequentially to http://www.gutenberg.org/etext/3524 for the Y Chromosome. Note that this sequence might not be considered definitive due to ongoing revisions and refinements. In addition to the chromosome files, there is a supplementary information file dated March 2004 which contains additional sequence information.
The HGP information pages
yourgenome.org: The Sanger Institute public information pages has general and detailed primers on DNA, genes and genomes, the Human Genome Project and science spotlights.
Ensembl project, an automated annotation system and browser for the human genome
UCSC genome browser, This site contains the reference sequence and working draft assemblies for a large collection of genomes. It also provides a portal to the ENCODE project.
Nature magazine's human genome gateway, including the HGP's paper on the draft genome sequence
Wellcome charitable trust description of HGP Lưu trữ 2005-04-28 tại Wayback Machine "Your Genes, your health, your future".
Learning about the Human Genome. Part 1: Challenge to Science Educators. ERIC Digest. Lưu trữ 2020-11-28 tại Wayback Machine
Learning about the Human Genome. Part 2: Resources for Science Educators. ERIC Digest. Lưu trữ 2020-11-28 tại Wayback Machine
Patenting Life by Merrill Goozner Lưu trữ 2006-07-20 tại Wayback Machine
Prepared Statement of Craig Venter of Celera Lưu trữ 2011-05-14 tại Wayback Machine Venter discusses Celera's progress in deciphering the human genome sequence and its relationship to healthcare and to the federally funded Human Genome Project.
Cracking the Code of Life Companion website to 2-hour NOVA program documenting the race to decode the genome, including the entire program hosted in 16 parts in either QuickTime hoặc RealPlayer format.
article by Leota Lone Dog, author of the 1999 article "whose genes are they" in the Journal of health and social policy, 10.4: 51-66. [3]

[Nature-1] . G. Gregory, K. F. Barlow u. a.: The DNA sequence and biological annotation of human chromosome 1. In: Nature. Band 441, Nummer 7091, Mai 2006, S. 315–321, ISSN 1476-4687. PMID 16710414.

[2] Cook-Deegan R (1989). “The Alta Summit, December 1984”. Genomics. 5: 661–663.

[3] Barnhart, Benjamin J. (1989). “DOE Human Genome Program”. Human Genome Quarterly. 1: 1. Retrieved 2005-02-03.

[4] DeLisi, Charles (2001). “Genomes: 15 Years Later A Perspective by Charles DeLisi, HGP Pioneer”. Human Genome News. 11: 3–4. Bản gốc lưu trữ ngày 8 tháng 9 năm 2005. Truy cập ngày 4 tháng 3 năm 2008. Retrieved 2005-02-03.

[5] “White House Press Release”. Truy cập ngày 22 tháng 7 năm 2006.

[6] “BBC NEWS”. Truy cập ngày 22 tháng 7 năm 2006. Đã bỏ qua văn bản “Science/Nature” (trợ giúp); Đã bỏ qua văn bản “Human genome finally complete” (trợ giúp)

[7] “Guardian Unlimited”. Truy cập ngày 22 tháng 7 năm 2006. Đã bỏ qua văn bản “UK Latest” (trợ giúp); Đã bỏ qua văn bản “Human Genome Project finalised” (trợ giúp)

[8] Osoegawa, Kazutoyo (2001). “A Bacterial Artificial Chromosome Library for Sequencing the Complete Human Genome”. Genome Research. 11: 483–496.

[9] Kennedy D (2002). “Not wicked, perhaps, but tacky”. Science. 297: 1237. PMID 12193755.

[10] Levy S, Sutton G, Ng PC, Feuk L, Halpern AL (2007). “The Diploid Genome Sequence of an Individual Human”. PLoS Biology. 5 (10).Quản lý CS1: nhiều tên: danh sách tác giả (liên kết)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

x t s Di truyền học loài người
Chủ đề phụ	Bộ gen người Dự án bản đồ gen người Di truyền học tiến hóa MRCA người-tinh tinh Di truyền học người Neanderthal Dự án bản đồ gen người Neanderthal Tiến trình tiến hóa Biến dị di truyền Phân bổ nhóm máu theo quốc gia Thử nghiệm DNA phả hệ Gia phả di truyền Chủng tộc và di truyền Tiến hóa gần đây Dự án DNA surname Kỹ thuật gen
Khảo cổ học di truyền theo khu vực	Châu Phi Hạ Sahara Nam Á Bắc Phi Cận Đông Nông dân Anatolia thời kỳ đầu Caucasus Săn bắt hái lượm Caucasus Châu Âu Săn bắt hái lượm săn phương Tây Quần đảo Anh Iberia Nước Ý Trung Á Bắc Âu cổ đại Đông Á Đông Nam Á Người Mỹ bản địa Beringia cổ đại
Di truyền học quần thể theo nhóm	Châu Âu Người Albania Người Basque Người Bosniak Người Bulgari Người Croatia Người România Người Nga Người Sami Người Serb Người Do Thái MENA Người Ả Rập Người Azerbaijan Người Ai Cập Người Maroc Người Thổ Nhĩ Kỳ Nam Á Người Gujarati Người Sinhala Người Tamil (Sri Lanka) Đông Á Người Hán Người Nhật Hạ Sahara Người Hutu/Tutsi Người Khoisan Người Pygmy