Protein (phát âm theo tiếng Anh: /ˈproʊˌtiːn/, phát âm tiếng Việt: prồ-tê-in hay còn gọi là chất đạm) là phân tử sinh học, hay đại phân tử, gồm nhiều amino acid liên kết lại với nhau. Protein thực hiện rất nhiều chức năng bên trong tế bào, bao gồm các phản ứng trao đổi chất có xúc tác, sao chép DNA, đáp ứng lại kích thích, và vận chuyển phân tử từ một vị trí đến vị trí khác. Các protein khác nhau chủ yếu ở trình tự của các amino acid cấu thành (trình tự này lại được quy định bởi trình tự nucleotide của các gene quy định tương ứng) và ở kết quả của giai đoạn cuộn gập protein (protein folding) thành những cấu trúc 3 chiều xác định lên chức năng của nó.
Một mạch thẳng các nhóm amino acid liên kết với nhau gọi là chuỗi polypeptide. Protein chứa ít nhất một chuỗi dài polypeptide. Các chuỗi polypeptide ngắn, chứa ít hơn 20-30 nhóm amin, hiếm khi được coi như là protein và thường được gọi là peptide, hoặc thỉnh thoảng là oligopeptide. Từng nhóm amino acid được liên kết với nhau bởi liên kết peptide. Trình tự của amino acid trong một protein được xác định bằng trình tự của một gene theo bảng mã di truyền. Trong tự nhiên, nhìn chung là có 20 amino acid tham gia tạo nên protein; tuy nhiên, ở một số sinh vật nhất định, mã di truyền của chúng có thể bao gồm selenocysteine và trong một số Cổ khuẩn là pyrrolysine. Ngay sau khi tổng hợp hoặc thậm chí trong quá trình tổng hợp, các nhóm amin trong một protein thường bị thay đổi tính chất hóa học bởi quá trình sửa đổi sau dịch mã (post-translational modification), làm biến đổi tính chất hóa học và vật lý, sự gập xoắn, tính ổn định, hoạt tính và cuối cùng là chức năng của protein. Một số protein còn có nhóm phi-peptide gắn thêm vào, gọi là nhóm ngoại lai (prosthetic group) hay đồng yếu tố (cofactor). Protein cũng làm việc với nhau để có được một chức năng chuyên biệt, và chúng thường phối hợp để tạo thành dạng phức hệ protein ổn định.
Sau khi được sinh ra, các protein chỉ tồn tại trong một khoảng thời gian nhất định trước khi bị phân giải và được tái sinh bởi bộ máy của tế bào thông qua quá trình quay vòng protein (protein turnover). Vòng đời của một protein được đo bằng chu kỳ bán rã và nằm trong một khoảng giá trị rất lớn. Thời gian tồn tại của protein có thể có giá trị từ vài phút cho đến hàng năm với thời gian sống trung bình khoảng 1–2 ngày trong tế bào động vật. Các protein không bình thường hoặc gập xoắn bị lỗi thường được phân giải nhanh hơn, có thể là do chúng bị đánh dấu để phá hủy hoặc trở nên không ổn định.
Giống như những đại phân tử sinh học khác như polysaccharide và acid nucleic, protein là thành phần thiết yếu của cơ thể sinh vật và tham gia vào mọi quá trình bên trong tế bào. Nhiều protein là những enzyme làm chất xúc tác cho các phản ứng hóa sinh và cần thiết cho trao đổi chất. Protein cũng có chức năng làm cấu trúc hoặc vận động, như actin và myosin ở cơ và protein trong bộ xương tế bào, tạo nên hệ thống các khung đỡ giúp duy trì hình dáng nhất định của tế bào. Các protein khác tham gia vào tín hiệu tế bào, đáp ứng miễn dịch, kết dính tế bào, và chu kỳ tế bào. Ở động vật, protein cần thiết phải có trong bữa ăn để cung cấp các amino acid thiết yếu mà không thể tổng hợp. Quá trình tiêu hóa "bẻ gãy" các protein để sử dụng trong trao đổi chất.
Protein có thể được tinh sạch từ các thành phần khác nhau của tế bào sử dụng nhiều kỹ thuật khác nhau như kỹ thuật siêu ly tâm (ultracentrifugation), kết tủa, điện di, và sắc ký; sự phát triển của kỹ thuật di truyền đã đem lại một số phương pháp để tinh sạch protein. Các phương pháp thường gặp để nghiên cứu cấu trúc và chức năng của protein bao gồm kỹ thuật hóa mô miễn dịch (immunohistochemistry), gây đột biến định hướng điểm (site-directed mutagenesis), tinh thể học tia X, cộng hưởng từ hạt nhân và khối phổ kế.
BMP/ĐIỆN GIẢI: | |||
Na+ = 140 | Cl− = 100 | BUN = 20 | / |
Glu = 150 | |||
K+ = 4 | CO2 = 22 | PCr = 1.0 | \ |
KHÍ MÁU ĐỘNG MẠCH: | |||
HCO3- = 24 | paCO2 = 40 | paO2 = 95 | pH = 7.40 |
THÔNG KHÍ PHẾ NANG: | |||
pACO2 = 36 | pAO2 = 105 | A-a g = 10 | |
KHÁC: | |||
Ca = 9.5 | Mg2+ = 2.0 | PO4 = 1 | |
CK = 55 | BE = −0.36 | AG = 16 | |
ĐỘ THẨM THẤU HUYẾT TƯƠNG/THẬN: | |||
PMO = 300 | PCO = 295 | POG = 5 | BUN:Cr = 20 |
XÉT NGHIỆM NƯỚC TIỂU: | |||
UNa+ = 80 | UCl− = 100 | UAG = 5 | FENa = 0.95 |
UK+ = 25 | USG = 1.01 | UCr = 60 | UO = 800 |
PROTEIN/ĐƯỜNG RUỘT/XÉT NGHIỆM CHỨC NĂNG GAN: | |||
LDH = 100 | TP = 7.6 | AST = 25 | TBIL = 0.7 |
ALP = 71 | Alb = 4.0 | ALT = 40 | BC = 0.5 |
AST/ALT = 0.6 | BU = 0.2 | ||
AF alb = 3.0 | SAAG = 1.0 | SOG = 60 | |
DỊCH NÃO TỦY: | |||
CSF alb = 30 | CSF glu = 60 | CSF/S alb = 7.5 | CSF/S glu = 0.4 |
Hầu hết các protein đều chứa một hoặc nhiều chuỗi polyme mạch thẳng cấu thành từ tập hợp 20 L-α-amino acid khác nhau. Các amino acid cấu tạo nên protein (amino acid sinh protein) có những đặc điểm cấu trúc giống nhau: đều có một α-carbon mà tại đó một nhóm amin, một nhóm carboxyl, và nhiều loại nhóm bên (side chain) khác nhau có thể liên kết vào. Chỉ có proline là khác với cấu trúc cơ bản này khi nó chứa một vòng tại điểm N-kết thúc của nhóm amin, khiến cho nửa nhóm CO–NH có hình dáng cố định là một mặt phẳng.[1] Nhóm bên của các amino acid cơ sở có tính chất và cấu trúc hóa học rất đa dạng; chính sự kết hợp và tương tác giữa các nhóm bên amino acid trong protein đã xác định cấu trúc 3 chiều và đặc tính phản ứng hóa học của protein.[2]
Amino acid trong một chuỗi polypeptide được liên kết với nhau bằng liên kết peptide. Khi được liên kết trong chuỗi protein, từng amino acid được gọi là phần thừa (hay phần dư, residue), và cấu trúc liên kết một loạt các nguyên tử carbon, nitro, và oxy được gọi là mạch chính hay bộ khung protein.[3]
Liên kết peptide có hai dạng cộng hưởng (resonance, hay cấu trúc mesome) góp phần tạo nên một số đặc trưng liên kết đôi và làm cản trở sự quay xung quanh trục của nó, vì vậy mà các nguyên tử carbon alpha hầu như là đồng phẳng với nhau. Hai góc nhị diện khác trong liên kết peptide xác định hình dạng cục bộ đảm nhiệm bởi khung xương protein.[4] Điểm kết thúc của protein với một nhóm carboxyl tự do được gọi là điểm kết thúc-C hoặc đầu mút cacboxy, trong khi điểm kết thúc với một nhóm amin tự do được gọi là điểm kết thúc-N hoặc đầu mút amin. Các thuật ngữ protein, polypeptide, và peptide có một chút khó hiểu và có thể mang ý nghĩa chồng lặp. Protein nói chung được sử dụng để nhắc đến những phân tử sinh học hoàn thiện trong cấu hình ổn định, trong khi peptide thường chỉ một oligome amino acid ngắn mà không có cấu trúc ba chiều ổn định. Tuy vậy, ranh giới giữa hai định nghĩa này thường không xác định rõ ràng và thường là peptide dài khoảng 20–30 amino acid.[5] Polypeptide thường muốn đề cập tới bất kỳ một mạch thẳng nào tạo nên từ amino acid, bất kể chiều dài, và thường hàm ý sự vắng mặt của một cấu hình xác định.
Các nhà sinh học ước tính một vi khuẩn kích thước trung bình chứa khoảng 2 triệu protein trong tế bào của nó (ví dụ như E. coli và Staphylococcus aureus). Các vi khuẩn nhỏ hơn, như Mycoplasma hay spirochetes sẽ chứa ít phân tử hơn, vào cỡ 50.000 đến 1 triệu phân tử protein. Ngược lại, các tế bào nhân thực có kích thước lớn hơn và do vậy chứa nhiều protein hơn. Ví dụ, tế bào nấm men ước tính có khoảng 50 triệu protein và tế bào người có từ 1 đến 3 tỷ protein. Bộ gene của vi khuẩn mã hóa cho protein thấp hơn 10 lần so với của người (ví dụ vi khuẩn nhỏ ~1.000, E. coli: ~4.000, nấm men: ~6.000, loài người: ~20.000).[6]
Nồng độ của các protein trong một tế bào có một phổ giá trị rất rộng, từ chỉ một vài phân tử cho đến hàng trăm nghìn phân tử trong một tế bào. Khoảng một phần ba tổng số protein không được sản sinh ra trong tế bào hay chỉ sinh ra trong những điều kiện nhất định. Ví dụ, trong số 20.000 protein được mã hóa bởi bộ gene ở loài người chỉ có 6.000 được phát hiện trong nguyên bào lympho.[7] Hơn nữa, số lượng protein mà bộ gene mã hóa có mối tương quan với cấu trúc phức tạp của cơ thể vật chủ. Sinh vật nhân thật, vi khuẩn, vi khuẩn cổ và vi rút tương ứng có trung bình 15145, 3200, 2358 và 42 protein được mã hóa trong bộ gene của chúng.[8]
Protein cấu tạo từ những amino acid lắp ghép lại sử dụng thông tin được mã hóa trong gene. Mỗi protein có trình tự amino acid duy nhất xác định bởi trình tự các nucleotide trong gene mã hóa cho protein này. Mã di truyền là một tập hợp chứa các tập hợp con của các bộ ba-nucleotide gọi là bộ ba mã hóa (codon) và mỗi tổ hợp ba-nucleotide tương ứng cho một amino acid, ví dụ AUG (adenine-uracil-guanine) mã hóa cho methionine. Bởi vì DNA chứa bốn nucleotide, tổng số codon khả dĩ là 64; tuy nhiên chỉ có 20 amino acid nên một số amino acid được mã hóa bởi nhiều hơn một codon.[9] Gen mã hóa trong DNA trước tiên được phiên mã thành phân tử tiền-mRNA (pre-mRNA) bởi các protein như RNA polymerase. Hầu hết các sinh vật sau đó xử lý tiền-mRNA (hay sản phẩm phiên mã sơ cấp - primary transcript) với nhiều dạng của sửa đổi sau phiên mã (post-transcriptional modification) để tạo nên phân tử mRNA hoàn chỉnh (mature mRNA), làm khuôn mẫu cho sinh tổng hợp protein nhờ ribosome. Ở sinh vật nhân sơ, mRNA hoặc là được sử dụng ngay sau khi nó hình thành, hoăc được gắn với một ribosome sau khi rời khỏi vùng nhân. Ngược lại, ở sinh vật nhân thực, mRNA được sinh ra trong nhân tế bào rồi sau đó chuyển dịch qua màng nhân đến bào tương, nơi quá trình sinh tổng hợp protein diễn ra. Tốc độ tổng hợp protein ở sinh vật nhân sơ nhanh hơn so với sinh vật nhân thực và có thể đạt tới 20 amino acid trong một giây.[10]
Giai đoạn tổng hợp protein từ khuôn mRNA gọi là dịch mã. mRNA được đưa vào ribosome và ribosome một lần đọc ba nucleotide bằng cách khớp theo nguyên tắc bổ sung mỗi bộ ba mã hóa (codon) với một bộ ba đối mã (anticodon) nằm trên phân tử RNA vận chuyển, nó mang theo amino acid tương ứng với codon mà nó nhận ra. Trước đó, enzyme aminoacyl tRNA synthetase "nạp" một amino acid đúng vào phân tử tRNA. Chuỗi polypeptide đang hình thành thường được gọi là chuỗi mới sinh (nascent chain). Protein luôn luôn sinh tổng hợp theo chiều từ đầu N (N-terminus, đầu có nhóm NH2) đến đầu C (C-terminus, đầu có nhóm COOH).[9]
Kích thước của một protein sinh tổng hợp có thể đo bằng số lượng amino acid chứa trong nó hoặc bằng tổng khối lượng phân tử, mà thông thường tính bằng đơn vị dalton (đồng nghĩa với đơn vị khối lượng nguyên tử), hoặc đơn vị phái sinh kilodalton (kDa). Protein sinh tổng hợp từ nấm men trung bình dài 466 amino acid và có khối lượng 53 kDa.[5] Protein lớn nhất từng được biết đến là titin, một thành phần của đơn vị cơ bản sợi cơ vân (muscle sarcomere), với khối lượng phân tử 3.000 kDa và chứa tới 27.000 amino acid.[11]
Các protein ngắn có thể được tổng hợp hóa học bằng một số phương pháp gọi là tổng hợp peptide, mà dựa trên những kỹ thuật tổng hợp hữu cơ như kỹ thuật nối hóa học (chemical ligation) để tạo ra các peptide với chiều dài lớn.[12] Tổng hợp hóa học cho phép đưa những amino acid nhân tạo vào trong chuỗi polypeptide, như gắn các phân tử thăm dò huỳnh quang vào mạch bên của chuỗi amino acid.[13] Những phương pháp này hữu hiệu trong phòng thí nghiệm hóa sinh và sinh học tế bào, mặc dù nói chung không thương mại hóa được. Tổng hợp hóa học sẽ trở nên không hiệu quả đối với chuỗi polypeptide dài hơn khoảng 300 amino acid, và các protein được tổng hợp có thể không gập về dạng cấu trúc bậc bốn như mong đợi. Hầu hết các phương pháp tổng hợp hóa học bắt đầu từ đầu C đến đầu N, trái ngược so với các phản ứng sinh học.[14]
Hầu hết các protein cuộn gấp thành một cấu trúc ba chiều duy nhất. Hình dạng mà một protein khi để uốn gấp một cách tự nhiên được gọi là hình dạng nguyên sinh (native conformation).[15] Mặc dù nhiều protein có thể uốn gấp mà không cần hỗ trợ, chỉ đơn giản nhờ vào các đặc tính hóa học của các amino acid thành phần, những protein khác đòi hỏi sự hỗ trợ của phân tử chaperone để uốn gấp thành hình dạng nguyên sinh của chúng.[16] Các nhà hóa sinh phân ra bốn cấp đối với cấu trúc của protein:[17]
Protein không phải là một phân tử "cứng chắc" hoàn toàn. Không chỉ cố định ở một bậc cấu trúc nhất định, protein có thể chuyển sang một vài cấu trúc liên quan khi chúng thực hiện các chức năng sinh học. Trong trường hợp của những sự sắp xếp các chức năng này, các cấu trúc bậc 3 và bậc 4 thường được gọi là "cấu dạng", và sự chuyển tiếp giữa chúng gọi là sự thay đổi cấu dạng. Những thay đổi này thường do sự liên kết của một phân tử cơ chất (substrate molecule) với một vị trí hoạt động của một enzyme, những vùng của protein tham gia vào xúc tác hóa học. Các protein trong dung dịch hòa tan cũng trải qua những biến đổi về cấu trúc tác động bởi các rung động nhiệt và sự va chạm với các phân tử khác.[18]
Toàn bộ protein hoặc những đoạn protein được phân loại thành bốn lớp chính, mà tương quan với cấu trúc bậc 4 của nó: protein dạng cầu (globular protein), protein dạng sợi (fibrous protein), protein màng tích hợp (integral membrane protein) và protein mất trật tự nội tại (intrinsically disordered protein).[19] Phần lớn toàn bộ protein dạng cầu có thể tan được và đa phần là các enzyme. Protein dạng sợi thường có vai trò cấu trúc, như collagene, thành phần chính của các mô liên kết, hay keratin, thành phần protein của tóc và móng chân tay. Protein dạng màng thường phục vụ như là những thụ thể hoặc làm kênh dẫn cho các phân tử mang điện tích hay phân cực vượt qua màng tế bào.[20] Protein mất trật tự nội tại khác biệt cơ bản về tính trật tự về cấu hình hình dạng với ba loại trên. Nhiều protein có hình dạng xác định rõ ràng khi ở dạng nguyên thể (native), nhưng protein mất trật tự nội tại thì không, chuỗi polypeptide của chúng rất linh động và không có một hình dáng nhất định. Tính chất này cho phép protein mất trật tự nội tại có thể tương tác với nhiều protein đối tác hoặc gập thành những hình dáng nhất định chỉ khi nó liên kết với những đối tác này. Protein mất trật tư nội tại thường là các phân tử truyền tín hiệu, điều hòa hoạt động cho những phân tử khác, hoặc làm bộ khung cho các protein khác bám vào.[19]
Một trường hợp đặc biệt của liên kết hiđrô liên phân tử bên trong protein, chỉ che chắn yếu ớt từ ảnh hưởng của nước và do vậy tự chúng dễ bị khử nước, được gọi là dehydron.[21]
Khám phá ra cấu trúc bậc ba của protein, hay cấu trúc bậc bốn của phức hợp protein, sẽ mang lại những chứng cứ quan trọng về chức năng của protein. Các phương pháp thực nghiệm phổ biến xác định cấu bao gồm tinh thể học tia X và kỹ thuật phổ NMR, cả hai đều cho thông tin ở mức phân giải cấp nguyên tử. Tuy nhiên, kỹ thuật NMR có thể cung cấp thông tin ước lượng về khoảng cách giữa từng cặp nguyên tử, và hình dạng khả dĩ cuối cùng đối với protein được xác định thông qua giải bài toán hình học khoảng cách. Kỹ thuật giao thoa phân cực hai sóng dẫn (Dual polarisation interferometry) là một phương pháp giải tích định lượng cho phép đo hình dạng tổng thể của protein và những thay đổi hình dạng do tương tác giữa các nguyên tử hoặc bởi các tác động khác. Lưỡng hướng sắc phân cực tròn (circular dichroism) là một kỹ thuật trong phòng thí nghiệm giúp xác định các thành phần cấu trúc bậc hai gấp nếp β / xoắn α của protein. Kính hiển vi điện tử truyền qua quan sát mẫu lạnh (cryoelectron microscopy) được sử dụng để thu được thông tin về cấu trúc có độ phân giải thấp hơn của các phức hợp protein rất lớn, bao gồm tổ hợp các virus;[22] một kỹ thuật biến thể khác gọi là "xác định cấu trúc tinh thể bằng kính hiển vi điện tử truyền qua" (electron crystallography) có thể thu được độ phân giải lớn ở một số trường hợp, đặc biệt đối với những tinh thể hai chiều ở các protein dạng màng.[23] Thông tin về những cấu trúc quan sát được thường lưu trữ ở Ngân hàng Dữ liệu Protein (Protein Data Bank, PDB), một hệ thống nguồn truy cập tự do mà dữ liệu cấu trúc của hàng nghìn protein có thể nhận được dưới dạng tọa độ Descartes cho từng nguyên tử trong protein.[24]
Có thêm nhiều trình tự gene được giải mã hơn so với số lượng protein có cấu trúc được làm rõ. Ngoài ra, tập hợp những cấu trúc được quan sát bị chệch khỏi hình dạng nguyên sinh của protein do tác động từ những điều kiện quan sát đòi hỏi trong kỹ thuật tinh thể học tia X, một trong những phương pháp chính nhằm xác định cấu trúc protein. Đặc biệt, những protein dạng cầu thường dễ dàng chuẩn bị làm mẫu tinh thể hóa trước khi tiến hành kỹ thuật chụp tinh thể học tia X. Ngược lại, các protein dạng màng, lại rất khó để đưa về dạng tinh thể và chưa có dữ liệu về chúng trong PDB.[25] Hướng nghiên cứu "bộ gene mã hóa cấu trúc protein" (structural geneomics) được khởi xướng gần đây đã cố gắng giảm bớt những lỗ hổng hiểu biết này bằng cách giải quyết một cách hệ thống cho cấu trúc của một số lớp protein thông qua cách chúng uốn gập. Phương pháp dự đoán cấu trúc protein có mục đích mang lại một bức tranh sơ bộ về cấu trúc của những protein mà chúng chưa được xác định cấu trúc bằng thực nghiệm.[26]
Protein là diễn viên chính bên trong tế bào, thực hiện các nhiệm vụ xác định bởi thông tin mã hóa trong gene.[5] Ngoại trừ đối với một số loại RNA nhất định, hầu hết các phân tử sinh học khác là những phân tử tương đối trơ với tác dụng của protein. Protein chiếm một nửa trọng lượng khô của tế bào vi khuẩn Escherichia coli, trong khi những đại phân tử khác như DNA và RNA chỉ chiếm tương ứng 3% và 20%.[27] Tập hợp các protein biểu hiện trong một tế bào cụ thể hoặc một loại tế bào được gọi là hệ protein (proteome) hay bộ protein hoàn chỉnh.
Đặc trưng chính của protein mà cũng làm lên các chức năng đa dạng đó là khả năng của chúng liên kết một cách đặc hiệu và chặt với các phân tử khác. Vùng protein có tính năng liên kết với các phân tử khác được gọi là vùng liên kết (binding site) và thường là những khe rãnh (depression) hoặc "túi" ("pocket") trên bề mặt phân từ. Khả năng liên kết này được thực hiện trung gian thông qua bởi cấu trúc bậc ba của protein, mà xác định vị trí túi liên kết, và bởi các tính chất hóa học của các chuỗi nhánh bên amino acid xung quanh. Liên kết protein có thể rất đặc hiệu và cực kỳ chặt; ví dụ, protein ức chế ribonuclease (ribonuclease inhibitor protein) liên kết với protein angiogenein ở người với hằng số phân ly cỡ dưới femto mol (<10−15 M) nhưng không liên kết với protein onconase tương đồng ở động vật lưỡng cư (>1 M). Những sự thay đổi hóa học rất nhỏ như thêm vào một nhóm methyl ở phân tử liên kết đôi khi đủ làm gần như loại bỏ liên kết với protein; ví dụ, aminoacyl tRNA synthetase đặc hiệu với amino acid valine lại rất phân biệt với isoleucine mặc dù hai amino acid này có chuỗi bên rất tương đồng.[28]
Protein có thể liên kết với các protein khác cũng như với các cơ chất tiểu phân tử (small-molecule substrate). Khi protein liên kết đặc hiệu với những bản sao khác của cùng phân tử, chúng có thể oligome hóa để tạo thành những sợi nhỏ; quá trình này thường xuất hiện ở những protein cấu trúc mà chứa những monome dạng cầu mà tự tổ chức thành những sợi vững chắc. Tương tác protein–protein cũng điều hòa các hoạt động do enzyme, điều khiển xúc tiến toàn bộ chu kỳ tế bào, và cho phép lắp ghép những phức hợp protein lớn mà chúng thực hiện những phản ứng liên quan mật thiết với nhau với một chức năng sinh học chung. Protein cũng có thể liên kết với, hay thậm chí tích hợp vào màng tế bào. Khả năng liên kết với các đối tác để cảm ứng sự thay đổi hình dáng trong các protein cho phép xây dựng lên một mạng lưới tín hiệu tế bào rộng lớn và phức tạp.[29] Do tương tác giữa các protein là thuận nghịch, và phụ thuộc nhiều vào khả năng của các nhóm protein khác nhau để hình thành lên tổ hợp có khả năng thực hiện các chức năng riêng rẽ, lĩnh vực nghiên cứu tương tác giữa các protein đặc hiệu là chìa khóa nhằm hiểu biết những khía cạnh quan trọng của chức năng tế bào, và đi đến những tính chất giúp phân biệt giữa các loại tế bào đặc biệt.[30][31]
Loại protein | Chức năng | Ví dụ |
---|---|---|
Cấu trúc | Cấu trúc, nâng đỡ | Collagene và elastin tạo nên cấu trúc sợi rất bền của mô liên kết, dây chằng, gân. Keratin tạo nên cấu trúc chắc của da, lông, móng. Protein tơ nhện, tơ tằm tạo nên độ bền vững của tơ nhện, vỏ kén. |
Enzyme | Xúc tác sinh học: tăng tốc độ phản ứng, chọn lọc các phản ứng sinh hóa | Các enzyme thủy phân trong dạ dày phân giải thức ăn, enzyme amylase trong nước bọt phân giải tinh bột chín, enzyme pepsin phân giải protein, enzyme lipase phân giải lipid. |
Hormone | Điều hòa các hoạt động sinh lý | Hormone insulin và glucagon do tế bào đảo tụy (beta cell) thuộc tuyến tụy tiết ra có tác dụng điều hòa hàm lượng đường glucose trong máu động vật có xương sống. |
Vận chuyển | Vận chuyển các chất | Huyết sắc tố hemoglobin có chứa trong hồng cầu động vật có xương sống có vai trò vận chuyển oxy từ phổi theo máu đi nuôi các tế bào. |
Vận động | Tham gia vào chức năng vận động của tế bào và cơ thể | Actinin, myosin có vai trò vận động cơ. Tubulin có vai trò vận động lông, roi của các sinh vật đơn bào. |
Bảo vệ | Bảo vệ cơ thể chống bệnh tật | Interferon chống virus. Kháng thể chống vi khuẩn gây bệnh. |
Thụ quan | Cảm nhận, truyền tín hiệu, đáp ứng các kích thích của môi trường | Thụ quan màng của tế bào thần kinh khác tiết ra (chất trung gian thần kinh) và truyền tín hiệu. |
Dự trữ | Dự trữ chất dinh dưỡng | Albumin lòng trắng trứng là nguồn cung cấp amino acid cho phôi phát triển. Casein trong sữa mẹ là nguồn cung cấp amino acid cho thai nhi. Trong hạt cây có chứa nguồn protein dự trữ cần thiết cho hạt nảy mầm. |
Vai trò được biết đến nhiều nhất của protein trong tế bào như là các enzyme, khi chúng là yếu tố xúc tác cho các phản ứng sinh hóa. Enzyme có tính đặc hiệu cao và chỉ tham gia vào một hoặc một vài phản ứng hóa học. Enzyme tham gia nhiều nhất vào các phản ứng trong trao đổi chất, cũng như tác động vào DNA trong những quá trình như nhân đôi DNA, sửa chữa DNA, và phiên mã. Một số enzyme tác động lên những protein khác để gắn thêm vào hoặc loại bỏ nhóm chức hóa học trong quá trình gọi sửa đổi sau dịch mã (post-translational modification). Có khoảng 4.000 phản ứng sinh hóa đã biết được xúc tác bởi enzyme.[34] Sự gia tăng tốc độ phản ứng nhờ xúc tác có enzyme thường là rất lớn—tăng tới 1017 lần trong phản ứng mà không có xúc tác như trong trường hợp của orotate decarboxylase (xảy ra trong 78 triệu năm mà không có enzyme, 18 milli giây với enzyme).[35]
Các phân tử liên kết vào và bị tác động bởi enzyme được gọi là các cơ chất (substrate). Mặc dù enzyme có thể chứa hàng trăm amino acid, thường chỉ có một số nhỏ các nhóm dư (residues) trên nó là tham gia tiếp xúc với cơ chất, và thậm chí một số nhỏ hơn—trung bình từ 3 đến 4 nhóm dư—là tham gia trực tiếp vào xúc tác.[36] Vùng của enzyme liên kết với cơ chất và chứa nhóm dư xúc tác được gọi là vị trí hoạt động (active site).
Dirigenet protein là những phần tử trong một lớp các protein chi phối hóa học lập thể (stereochemistry) của một hợp chất được tổng hợp bởi những enzyme khác.[37]
Nhiều protein tham gia vào các giai đoạn của quá trình truyền tín hiệu tế bào và tải nạp tín hiệu. Một số protein, như insulin, là những protein ngoại bào thực hiện truyền tín hiệu từ tế bào mà chúng được sinh tổng hợp đến những tế bào khác trong mô ở xa. Những protein khác là protein màng (membrane protein) hoạt động như là những thụ thể mà chức năng chính là liên kết với một phân tử tín hiệu và cảm ứng một đáp ứng hóa sinh bên trong tế bào. Nhiều thụ thể có vị trí liên kết nằm bên trên bề mặt tế bào và miền tác dụng nằm bên trong tế bào, mà hoạt động chức năng enzyme có thể trải qua một sự thay đổi cấu dạng (conformational change) được phát hiện bởi những protein khác bên trong tế bào.[38]
Kháng thể là những thành phần protein của một hệ miễn dịch thu được (adaptive immune system) có chức năng chính là liên kết với các kháng nguyên, hoặc những cơ chất lạ bên trong tế bào của cơ thể, và nhận diện đánh dấu chúng để tiêu hủy. Kháng thể có thể tiết vào môi trường ngoại bào hoặc bám vào màng của những tế bào B chuyên biệt (B cell) gọi là tế bào plasma. Trong khi các enzyme bị giới hạn ở ái lực liên kết với các chất nền bởi tính cần thiết cho việc điều khiển phản ứng mà chúng tham gia, các kháng thể lại không bị giới hạn này. Ái lực liên kết của các kháng thể với mục tiêu của nó là cực kỳ cao.[39]
Nhiều phối tử (ligand) vận chuyển các protein gắn đặc hiệu cùng với các phân tử sinh học nhỏ và vận chuyển chúng đến những vị trí khác nhau trong cơ thể của một sinh vật đa bào. Những protein này phải có ái lực liên kết lớn khi các phối tử có mặt ở mức độ tập trung lớn, nhưng cũng giải phóng được phối tử khi sự có mặt của chúng ở mức độ thấp tại những mô đích đến. Ví dụ điển hình của protein liên kết phối tử là haemoglobin, giúp vận chuyển oxy từ phổi đến các mô và các cơ quan khác ở động vật có xương sống và có sự tương đồng gần gũi trong mọi giới sinh học.[40] Lectin là những protein liên kết với đường có chức năng đặc hiệu cao với phân tử đường của nó. Lectin đóng vai trò điển hình trong hiệu ứng nhận dạng phân tử ở tế bào và các protein.[41] Các thụ thể và hormone là những protein liên kết đặc hiệu cao.
Protein xuyên màng (transmembrane protein) cũng được coi như những protein chuyên chở phối tử mà làm thay đổi tính thấm của màng tế bào đối với những phân tử nhỏ và ion. Riêng ở màng có một lõi kị nước mà các phân tử phân cực hay mang điện không thể khuếch tán qua nó. Protein màng chứa các kênh bên trong cho phép các phân tử như vậy đi vào và thoát ra khỏi tế bào. Nhiều protein kênh ion là chuyên biệt cho phép chỉ một ion đặc biệt đi qua; ví dụ, các kênh kali và natri chỉ cho một loại ion tương ứng đi qua.[42]
Các protein cấu trúc đem lại tính vững trãi và sự cứng chắc cho các thành phần sinh học không ở trạng thái lỏng khác. Hầu hết các protein cấu trúc là những protein dạng sợi; ví dụ, collagen và elastin là những thành phần quan trọng của mô liên kết như sụn, và keratin được tìm thấy trong các cấu trúc cứng hoặc có dạng sợi như lông, móng, lông vũ, móng guốc, và vỏ giáp ngoài.[43] Một số protein dạng cầu cũng đóng vai trò làm chức năng sinh học, ví dụ, sợi actin và tubulin có dạng cầu và hòa tan được khi là các monome, nhưng khi bị polyme hóa tạo thành dạng sợi dài, cứng giúp cấu thành lên bộ xương tế bào, cho phép tế bào duy trì hình dạng và kích thước của nó.
Những protein khác phục vụ chức năng cấu trúc là protein động cơ như myosin, kinesin, và dynein, mà chúng có khả năng sinh ra lực cơ học. Những protein này đặc biệt quan trọng cho sự di chuyển (motility) của tế bào ở những sinh vật đơn bào và của tinh trùng ở phần lớn sinh vật đa bào cho hoạt động sinh sản. Chúng cũng sinh ra lực đẩy làm cơ co lại[44] và đóng vai trò quan trọng ở quá trình vận chuyển bên trong tế bào.
Các hoạt động và chức năng của protein có thể nghiên cứu trong ống nghiệm (in vitro), in vivo, và in silico. Phương pháp in vitro nghiên cứu các protein được sàng lọc trong những môi trường có kiểm soát giúp tìm hiểu một protein thực hiện chức năng của nó như thế nào: ví dụ, lĩnh vực nghiên cứu động học enzyme (enzyme kinetic) khám phá cơ chế phản ứng của sự hoạt động xúc tác của một enzyme và ái lực của nó đối với nhiều phân tử cơ chất khác nhau. Ngược lại, phương pháp thực nghiệm in vivo cung cấp thông tin về vai trò sinh lý của một protein bên trong tế bào hay thậm chí toàn bộ sinh vật. Phương pháp in silico sử dụng các phương pháp của tin sinh học để nghiên cứu protein.
Để thực hiện phân tích in vitro, một protein cần nghiên cứu phải được tinh sạch và sàng lọc (protein purification) khỏi những thành phần khác của tế bào. Quá trình này thường bắt đầu bằng cách phá tế bào (hay tiêu tế bào, cytolysis), khi ấy màng tế bào bị phá vỡ khi lượng nước thẩm thấu quá nhiều vào trong tế bào và các thành phần bên trong được giải phóng vào một dung môi gọi là dung dịch thủy phân tế bào (crude lysate, hay cytolysate). Hỗn hợp thu được được tinh sạch bằng phương pháp siêu ly tâm (ultracentrifugation), mà phân tách nhiều thành phần tế bào thành các phần chứa các protein hòa tan khác nhau; như màng lipid và protein; bào quan tế bào, và acid nucleic. Hỗn hợp được kết tinh bằng phương pháp tách tinh thể muối (salting out) cho phép tập trung protein từ dung dịch này. Sau đó sử dụng nhiều kỹ thuật sắc ký để cô lập một hoặc một vài protein cần nghiên cứu dựa trên những tính chất của chúng như trọng lượng phân tử, tổng điện tích và ái lực liên kết.[45] Mức độ sàng lọc được giám sát nhờ sử dụng nhiều kỹ thuật điện di trên gel (gel electrophoresis) nếu biết trọng lượng phân tử và điểm đẳng điện (isoelectric point) của protein cần nghiên cứu, hoặc bằng phân tích phổ nếu protein có những đặc trưng phổ dễ phân biệt, hoặc bằng thí nghiệm thử enzyme (enzyme assay) nếu protein có hoạt tính enzyme. Thêm vào đó, protein có thể được cô lập theo điện tích của chúng nhờ sử dụng phương pháp tập trung đẳng điện (isoelectric focusing).[46]
Đối với các protein tự nhiên, cần phải thực hiện một chuỗi các bước tinh sạch trước khi có thể thu được một lượng protein đủ thuần khiết cho mục đích sử dụng trong phòng thí nghiệm. Để làm đơn giản quá trình này, các nhà hóa sinh thường sử dụng kỹ thuật di truyền để thêm vào các đặc điểm cho protein giúp dễ dàng sàng lọc chúng hơn mà không làm ảnh hưởng đến cấu trúc hay hoạt động của chúng. Ở đây, một "chất đánh dấu" (tag) chứa một trình tự amino acid đặc hiệu, thường là một chuỗi histidine (chất "His-tag"), được gắn vào một đầu của protein. Kết quả là, khi đưa dung dịch hòa tan protein vào các ống nghiệm của máy sắc ký chứa niken, histidine liên kết phối tử với niken và đọng lại trong cột trong khi những thành phần không được đánh dấu trong dung dịch sẽ chảy qua không bị cản trở. Nhiều phương pháp đánh dấu đã được phát triển để giúp các nhà nghiên cứu sàng lọc các protein đặc biệt từ những hợp chất phức tạp.[47]
Phương pháp nghiên cứu in vivo cho protein thường đề cập đến sự tổng hợp và sự định vị (khu trú, localization) protein bên trong tế bào. Mặc dù nhiều protein nội bào được sinh tổng hợp bên trong tế bào chất và ở các vị trí liên kết với màng tế bào hoặc protein được tiết ra từ mạng lưới nội chất, chi tiết cụ thể bằng cách nào mà các protein được định hướng (protein targeting) đến những bào quan cụ thể hoặc các cấu trúc của tế bào vẫn chưa được hiểu rõ. Một kỹ thuật hữu ích để đánh giá sự khu trú tế bào bằng cách sử dụng kỹ thuật di truyền nhằm biểu hiện bên trong một tế bào một protein dung hợp (fusion protein, hay chimera, một protein được tạo ra thông qua việc nối hai hoặc nhiều đoạn gene với nhau mà ban đầu mã hóa cho từng protein riêng biệt) chứa protein tự nhiên cần nghiên cứu mà nó liên kết với một "thành phần báo cáo" như protein huỳnh quang xanh (GFP).[48] Vị trí của protein dung hợp bên trong tế bào có thể dễ dàng nhận ra và chụp ảnh dưới kính hiển vi,[49] như minh họa ở hình bên cạnh.
Những phương pháp khác nhằm lý giải vị trí của protein trong tế bào đòi hỏi sử dụng các ngăn nội bào chỉ thị đã biết cho từng vùng chuyên biệt như lưới nội chất ER, bộ máy Golgi, thực bào, không bào, ty thể, lục lạp, màng sinh chất, vv. Bằng cách sử dụng các phân tử đánh dấu huỳnh quang xanh cho những vùng chỉ thị này hoặc của những kháng thể cho những phân tử chỉ thị đã biết, người ta có thể dễ dàng nhận ra vị trí của protein cần nghiên cứu trong tế bào. Ví dụ, kỹ thuật hiển vi huỳnh quang miễn dịch gián tiếp (indirect immunofluorescence) sẽ cho phép huỳnh quang các vị trí và hiển thị chúng. Bột huỳnh quang được sử dụng để đánh dấu các ngăn của tế bào cho các mục đích tương tự.[50]
Có những kỹ thuật khác, ví dụ như kỹ thuật hóa mô miễn dịch (immunohistochemistry) thường lợi dụng một kháng thể của một hay nhiều protein cần nghiên cứu mà liên hợp với các enzyme để thu được hoặc là vị trí phát sáng hoặc là tín hiệu tạo sắc tố (chromogeneic) mà các nhà nghiên cứu có thể so sánh giữa các mẫu, cho phép họ thu thập thông tin về vị trí của protein. Một kỹ thuật ứng dụng khác là đồng cất phân đoạn (cofractionation) trong gradien sucrose (hoặc những vật liệu khác) sử dụng các bước lọc ly tâm phân đoạn (differential centrifugation).[51] Trong khi kỹ thuật này không cho biết sự đồng khu trú của một khoang của tỷ trọng đã biết và protein quan tâm, nó tăng tỷ lệ tinh khiết, và tuân theo các nghiên cứu trên quy mô lớn.
Cuối cùng, phương pháp tiêu chuẩn vàng để xác định sự khu trú tế bào là bằng kỹ thuật hiển vi điện tử miễn dịch (immunoelectron microscopy). Kỹ thuật này cũng sử dụng một kháng thể với protein cần nghiên cứu, và kết hợp với các kỹ thuật hiển vi điện tử cổ điển khác. Mẫu được chuẩn bị như đối với kiểm tra qua kính hiển vi điện từ thông thường, và sau đó được xử lý bằng một kháng thể với protein quan tâm mà liên hợp với vật liệu có mật độ electron dày đặc, mà thường là vàng. Kỹ thuật này cho phép xác định được chi tiết siêu cấu trúc cũng những vị trí của protein đang cần nghiên cứu.[52]
Thông qua các ứng dụng kỹ thuật di truyền khác được biết đến như gây đột biến định hướng điểm (site-directed mutagenesis), các nhà nghiên cứu có thể thay đổi được trình tự của protein và do đó đến cấu trúc của nó, sự khu trú tế bào, và tính nhạy cảm đối với sự điều hòa biểu hiện. Kỹ thuật này thậm chí cho phép đính những phân tử amino acid không có trong tự nhiên vào protein, bằng sử dụng các tRNA được sửa đổi,[53] và có thể cho phép đánh giá sự hợp lý trong thiết kế protein mới với những tính chất nổi bật.[54]
Tổng toàn bộ protein ở một thời điểm có trong một tế bào hoặc loại tế bào được gọi là bộ protein hay proteome, và ngành nghiên cứu tập hợp dữ liệu lớn như thế gọi là proteomic, được đặt tên tương tự như của ngành geneomic. Các kỹ thuật thực nghiệm quan trọng của proteomic bao gồm điện di trên keo hai chiều (2D gel electrophoresis),[55] cho phép tách số lượng lớn các protein, phương pháp khối phổ,[56] cho phép nhanh chóng nhận ra loại protein và trình tự các peptide (hầu hết sau khi tiêu hóa trên gel (in-gel digestion)), protein microarray,[57] cho phép xác định mức độ tương đối của một số lớn các protein có mặt trong một tế bào, và sàng lọc thể lai hai mảnh (two-hybrid screening), cho phép khám phá một cách có hệ thống tương tác protein-protein.[58] Tổng toàn bộ các tương tác sinh học khả dĩ như những tương tác này gọi là interactome.[59] Nỗ lực có hệ thống nhằm xác định cấu trúc của protein biểu diễn cho mỗi hình dạng gập khả dĩ gọi là ngành nghiên cứu bộ gene cấu trúc (structural geneomics).[60]
Rất nhiều phương pháp tính toán đã được phát triển để phân tích cấu trúc, chức năng, và sự tiến hóa của protein.
Nhờ sự phát triển của những công cụ này giúp đem lại lượng lớn dữ liệu thu thập được về bộ gene và bộ protein (proteomic) ở nhiều sinh vật, bao gồm bộ gene người. Không thể đơn giản chỉ nghiên cứu bằng thực nghiệm mọi protein được, do vậy chỉ có một vài phân tử được nghiên cứu trong phòng thí nghiệm trong khi các công cụ tính toán được sử dụng để ngoại suy ra những protein tương tự. Những protein tương đồng này có thể nhận ra với độ chính xác cao ở những sinh vật có liên hệ xa bởi phương pháp bắt cặp trình tự (sequence alignment). Bộ gene và trình tự gene được tìm kiếm bằng nhiều công cụ khác nhau cho những tính chất nhất định. Các công cụ nhận diện trình tự (sequence profiling tools) có khả năng tìm ra những vị trí enzyme giới hạn, khung đọc mở (open reading frame) ở trình tự nucleotide, và dự đoán cấu trúc bậc 2. Cây phát sinh chủng loài có thể xây dựng và các giả thuyết tiến hóa được phát triển nhờ sử dụng các phần mềm chuyên dụng như ClustalW khi xem xét tổ tiên của những sinh vật hiện đại và các gene mà chúng biểu hiện. Lĩnh vực tin sinh học hiện nay trở thành công cụ quý giá cho phân tích gene và protein.
Bổ sung cho ngành bộ gene cấu trúc (structural geneomic), lĩnh vực dự đoán cấu trúc protein phát triển các mô hình toán học hữu hiệu về protein để dự đoán lý thuyết dựa trên công cụ tính toán về cấu trúc của chúng, thay vì phát hiện cấu trúc protein trong phòng thí nghiệm.[61] Phương pháp dự đoán cấu trúc thành công nhất, gọi là mô hình đồng đẳng (homology modeling), dựa trên sự tồn tại của một cấu trúc "khuôn mẫu" với trình tự giống với của protein đang được xây dựng mô hình; mục đích của bộ gene cấu trúc là cung cấp hình ảnh biểu diễn thỏa đáng trong các cấu trúc đã biết để mô hình hóa nhiều nhất có thể các cấu trúc còn chưa được biết.[62] Mặc dù mục tiêu tạo ra những mô hình chính xác vẫn còn là thử thách khi chỉ những khuôn mẫu có liên hệ xa là mới có, người ta đã đề xuất rằng sự bắt cặp trình tự là nút thắt cổ chai trong quá trình này, khi có thể tạo ra những mô hình khá chính xác nếu đã biết một trình tự bắt cặp "hoàn hảo".[63] Nhiều phương pháp dự đoán cấu trúc được ứng dụng trong lĩnh vực kỹ thuật protein, trong đó những protein gập lạ đã được thiết kế.[64] Một vấn đề tính toán phức tạp hợp đó là dự đoán tương tác liên phân tử, như trong sự cập bến của phân tử (molecular docking) và dự đoán tương tác protein–protein.[65]
Những mô hình toán học để mô phỏng tiến trình động lực của sự gập protein và liên kết protein bao gồm cơ học phân tử, và đặc biệt là động lực học phân tử. Kỹ thuật Monte Carlo trang bị cho các tính toán, mà dựa trên điện toán phân tán và tính toán song song tiên tiến (ví dụ như dự án Folding@home[66] thực hiện mô phỏng cấu trúc phân tử dựa trên GPU). Mô phỏng in silico khám phá ra sự gập của những miền nhỏ xoắn α trên protein như đầu của villin[67] và protein phụ cho HIV.[68] Các phương pháp lai kết hợp chuẩn động lực học phân tử với toán học của cơ học lượng tử để khám phá các trạng thái điện tử của rhodopsin.[69]
Nhiều protein (ở sinh vật nhân thực Eucaryota ~33%) chứa nhiều đoạn với cấu trúc không ổn định nhưng có chức năng sinh học và được phân loại thành protein mất trật tự nội tại (intrinsically disordered proteins).[70] Dự đoán và phân tích protein mất trật tự do đó là một mảng quan trọng của nghiên cứu cấu trúc protein.[71]
Hầu hết các vi sinh vật và thực vật có thể sinh tổng hợp tất cả 20 amino acid chính, trong khi động vật (bao gồm con người) phải lấy một số amino acid từ thức ăn.[27] Các amino acid mà một sinh vật không thể tự tổng hợp được gọi là các amino acid thiết yếu. Những enzyme quan trọng mà tham gia tổng hợp một số amino acid không có ở động vật — như aspartokinase, tham gia xúc tác ở phản ứng đầu tiên của quá trình tổng hợp lysine, methionine, và threonine từ aspartate. Nếu các amino acid có mặt trong môi trường, vi sinh vật có thể bảo tồn được năng lượng bằng cách tiếp nhận amino acid từ môi trường xung quanh chúng và điều hòa giảm sinh tổng hợp các amino acid này trong chu trình sinh dưỡng của nó.
Ở động vật, amino acid nhận được thông qua tiêu thụ thức ăn chứa protein. Protein tiêu hóa sau đó bị phân tách thành các amino acid nhờ quá trình tiêu hóa, mà điển hình bao gồm sự biến tính của protein do tiếp xúc với acid và bị thủy phân bởi enzyme xúc tác protease. Một số amino acid tiêu thụ được sử dụng để sinh tổng hợp protein mới, trong khi những amino acid khác chuyển hóa thành glucose nhờ quá trình tân tạo glucose (gluconeogenesis), hoặc tham gia vào chu trình acid citric. Việc sử dụng protein như là nhiên liệu rất quan trọng trong điều kiện thiếu ăn khi nó cho phép chính protein trong cơ thể được sử dụng để hỗ trợ sự sống, đặc biệt như được tìm thấy ở cơ.[72]
Protein được công nhận là một lớp các phân tử sinh học chuyên biệt bởi Antoine Fourcroy và những người khác vào thế kỷ 18, phân biệt nhờ vào đặc tính của phân tử như đông đặc hoặc lên bông (flocculate) khi xử lý qua nhiệt hoặc acid.[73] Các mẫu được chú ý ở thời điểm đó bao gồm albumin từ lòng trắng trứng, serum albumin máu, fibrin, và gluten hạt lúa mì.
Nhà hóa học người Hà Lan Gerardus Johannes Mulder là người đầu tiên miêu tả về protein và tên gọi này được nhà hóa học người Thụy Điển Jöns Jacob Berzelius đặt vào năm 1838.[74][75] Mulder thực hiện các phân tích sơ cấp về những protein phổ biến và ông tìm thấy gần như mọi protein có cùng một công thức thực nghiệm, C400H620N100O120P1S1.[76] Ông đi đến kết luận sai lầm rằng chúng phải là hỗn hợp của một loại phân tử rất lớn. Thuật ngữ "protein" dùng cho những phân tử này do Berzelius, một đồng nghiệp của Mulder, đề xuất; protein bắt nguồn trong tiếng Hy Lạp πρώτειος (proteios), nghĩa là "sơ cấp",[77] "dẫn đầu", hoặc "đứng phía trước",[78] + -in. Mulder nhận biết được các sản phẩm của sự thoái hóa protein như amino acid leucin mà ông tìm thấy (một cách gần đúng) trọng lượng phân tử bằng 131 Da.[76]
Những nhà dinh dưỡng học thời đầu như Carl von Voit người Đức tin rằng protein là thành phần dinh dưỡng quan trọng nhất để duy trì cấu trúc của cơ thể, bởi vì niềm tin phổ biến thời đấy cho rằng "máu tươi tạo máu tươi" ("flesh makes flesh").[79] Karl Heinrich Ritthausen thêm vào các dạng protein đã biết bao gồm acid glutamic. Ở Trung tâm thí nghiệm nông nghiệp Connecticut (Connecticut Agricultural Experiment Station), nhà hóa học Thomas Burr Osborne đã thực hiện đánh giá chi tiết các loại protein có trong cây trồng. Nghiên cứu cùng Lafayette Mendel và áp dụng quy luật cực tiểu của Liebig khi nuôi chuột thí nghiệm, họ đã thiết lập lên danh mục các amino acid dinh dưỡng thiết yếu. Công trình này được tiếp tục nghiên cứu và trao đổi hợp tác với William Cumming Rose. Hiểu biết protein là các chuỗi polypeptide thông qua nghiên cứu của hai nhà hóa học người Đức Franz Hofmeister và Hermann Emil Fischer vào năm 1902.[80][81] Vai trò trung tâm của protein làm enzyme xúc tác trong sinh vật sống không được đánh giá đầy đủ cho đến tận năm 1926, khi James B. Sumner chỉ ra enzyme urease thực chất là một protein.[82]
Sự khó khăn trong quá trình tinh sạch protein thành lượng lớn khiến các nhà hóa sinh nghiên chúng rất khó khăn ở thời điểm đầu. Do vậy, những nghiên cứu ban đầu tập trung vào những protein được tinh lọc lượng lớn, ví dụ như của máu, lòng trứng trắng, nhiều độc tố khác nhau, và các enzyme tiêu hóa / trao đổi chất lấy từ các lò sát sinh. Trong thập niên 1950, công ty Armour Hot Dog Co. đã lọc được khoảng 1 kg thuần khiết ribonuclease A từ tuyến tụy của bò và cung cấp miễn phí cho các nhà khoa học; nhờ thế mà ribonuclease A trở thành mục tiêu nghiên cứu chính của hóa sinh trong hàng thập kỷ sau đó.[76]
Linus Pauling được ghi nhận là đã đưa ra mô hình dự đoán thành công cấu trúc bậc 2 của các protein đối xứng đều dựa trên liên kết hiđrô, ý tưởng ông lấy từ William Astbury vào năm 1933.[83] Công trình nghiên cứu sau đó của Walter Kauzmann về sự biến tính,[84][85] dựa một phần trên nghiên cứu trước đây của Kaj Linderstrøm-Lang,[86] đóng góp vào hiểu biết quá trình gập protein (protein folding) và cấu trúc trung gian bởi tương tác kị nước.
Protein được giải trình tự đầu tiên là insulin, do Frederick Sanger thực hiện vào năm 1949. Sanger đã xác định đúng trình tự các amino acid của insulin, vì thế chứng minh một cách thuyết phục rằng các protein là những polymer mạch thẳng chứa các amino acid hơn là các mạch nhánh, hệ keo, hoặc cyclol.[87] Ông giành giải Nobel Hóa học cho thành tựu này vào năm 1958.[88]
Cấu trúc protein lần đầu tiên được quan sát là của hemoglobin và myoglobin, do Max Perutz và Sir John Cowdery Kendrew, thực hiện một cách độc lập vào năm 1958.[89][90] Tính đến năm 2017[cập nhật], ngân hàng dữ liệu protein (Protein Data Bank) chứa hơn 126.060 protein có cấu trúc được quan sát ở cấp độ nguyên tử.[91] Trong thời gian gần đây, kỹ thuật hiển vi electron lạnh (cryo-electron microscopy) đối với quá trình lắp ráp đại phân tử[92] và tính toán dự đoán cấu trúc protein (computational protein structure prediction) của các miền protein nhỏ (small protein domain)[93] là hai phương pháp tiếp cận chính trong nghiên cứu cấu trúc protein.