(GMT+07) Thứ hai 7/4/2025 -+- Ngày 10 tháng 3 năm Ất Tỵ

LeVanLoi'log, ⌚ 2024-10-31
***

☕ Nhàn đàm S&T: Protein: giải Nobel Hóa học năm 2024

Tác giả: Lê Văn Lợi

Để giúp anh/chị quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan đến bài post này như sau:

Chủ đề: Machine Learning, Bioinformatics, Protein
Tính thời sự: Tháng 10/2024.
Thời gian đọc: 8 phút, kể cả thời gian uống cà phê.

Giải Nobel năm nay khá đặc biệt: giải Nobel Vật lý và giải Nobel Hóa học đều trao cho những người làm về CNTT, là các nhà khoa học về lĩnh vực Machine Learning.

Giải Nobel Vật lý trao cho ông John J. Hopfield – giáo sư tại ĐH Princeton, Hoa Kỳ và cho ông Geoffrey E. Hinton – giáo sư tại ĐH Toronto, Canada.
Giải Nobel Hóa học, một nửa trao cho David Baker – ĐH Washington, Hoa Kỳ, một nửa trao cho Demis Hassabis và John M. Jumper – công ty Google DeepMind, London, Vương quốc Anh.

Để phục vụ anh/chị nhâm nhi cà phê lần này, tôi xin phép đàm luận về protein (đạm) – là chủ đề của giải Nobel Hóa học năm nay (2024). Protein là thành phần cơ bản của sự sống (life). Dưới góc độ hệ thống điện toán, một số protein đảm nhận chức năng cảm biến, một số khác đảm nhận chức năng thực thi, một số lại đảm nhận chức năng quản trị. Nói một cách tổng quan: protein “vận hành” sự sống.

Giải Nobel năm nay gồm 2 nhánh: một nhánh sử dụng mạng nơ-ron (neural network) để phỏng đoán (predict) cấu trúc 3D của protein từ một chuỗi axít amin cho trước (Demis Hassabis và John M. Jumper). Nhánh còn lại là viết phần mềm Rosetta rồi dùng phần mềm này để tạo ra các protein hoàn toàn mới chưa hề có trong tự nhiên (David Baker).

⨭Về nhánh thứ nhất:

Tôi đã có dịp đàm luận về vấn đề này trên diễn đàn ICT_VN vào ngày 30/07/2021 (cách đây hơn 3 năm). Đại ý: khi nghiên cứu protein, người ta nhận thấy có một vấn đề rất thách thức, có tên gọi là “protein folding problem” (vấn đề cuộn gấp protein). Ông Christian B. Anfinsen, trong phát biểu nhận giải Nobel năm 1972, có nói, khi biết được trình tự chuỗi axít amin của một protein, về mặt nguyên tắc, chúng ta sẽ biết cấu trúc 3D của protein đó. Định đề giả thuyết này đã khơi mào cho một thách thức kéo dài suốt 5 thập kỷ (1972-2021). Đó là:

Câu đố: Cho biết cấu trúc một chiều (1D) của protein hãy tìm cấu trúc ba chiều (3D) tương đương (duy nhất) của nó.

║ Chi tiết: Phát biểu trên không hẳn là đầy đủ, nó chỉ nói lên được tính thách thức của vấn đề, chứ chưa đề cập đến tính đặc trưng của chuỗi các axít amin. Định đề nói rằng, ở trong điều kiện môi trường nhất định (nhiệt độ, nồng độ dung môi, v.v.) quá trình cuộn gấp xảy ra và chúng ta chú ý tính chất này: cấu trúc nguyên bản (native structure) – sau khi quá trình cuộn gấp kết thúc – là duy nhất. Nói cách khác, chỉ có duy nhất một cấu trúc 3D tương đương với chuỗi trình tự ban đầu của protein – xem Anfinsen's dogma.

↓

Hãy hình dung cấu trúc của một protein: giống như sợi các hạt gắn với nhau.
Các hạt chính là các hóa chất có tên gọi là axit amin. Chỉ có 20 loại axít amin khác nhau (Alanine, Arginine, Asparagine, Aspartic acid, Cysteine, Glutamine, Glutamic acid, Glycine, Histidine, Isoleucine, Leucine, Lysine, Methionine, Phenylalanine, Proline, Serine, Threonine, Tryptophan, Tyrosine, Valine).
Các sợi hạt này được lắp ráp, cuộn gấp tuân theo các “câu lệnh” (instruction) nằm trong DNA (gen).
Lực hút và lực đẩy giữa 20 loại axít amin khác nhau khiến chuỗi gấp lại theo kiểu ‘gấp giấy tự động’ trong nháy mắt, tạo thành các lọn, vòng và nếp gấp phức tạp, đó chính là cấu trúc 3D của protein.

Nguồn.

Chuỗi axit amin gấp lại thành cấu trúc ba chiều.

Hình ảnh minh họa cấu trúc của các axit amin và vai trò của chúng trong việc hình thành protein.

Ở bên trái, có một vòng tròn hiển thị 20 loại axit amin khác nhau, đây là những khối xây dựng của protein. Các axit amin này bao gồm những loại quen thuộc như Glutamic acid, Lysine, Tyrosine, Methionine và những loại khác, mỗi loại được biểu diễn bằng một màu khác nhau.

Bên phải của sơ đồ vòng tròn, có một "chuỗi axit amin" tuyến tính, trực quan nối các axit amin riêng lẻ trong một chuỗi giống như chuỗi dây chuyền. Chuỗi này gấp lại thành một cấu trúc ba chiều phức tạp, đại diện cho một protein hoàn chỉnh. Hình ảnh nhấn mạnh sự biến đổi từ một chuỗi đơn giản của các axit amin thành một protein chức năng, có vai trò quan trọng trong các quá trình sinh học khác nhau.

Để xác định được cấu trúc 3D của protein (xem hình ảnh minh họa), giới nghiên cứu đã sử dụng rất nhiều phương pháp thí nghiệm hiện đại như nuclear magnetic resonance (cộng hưởng từ hạt nhân), X-ray crystallography (tinh thể học tia X), cryogenic electron microscopy (kính hiển vi điện tử đông lạnh). Tuy đã sử dụng các công cụ hiện đại và đắt tiền (nhiều triệu đô-la một thiết bị) nhưng việc làm thí nghiệm là một quá trình gian nan, mất nhiều công sức và phải mất hàng tháng, hàng năm trời mới tìm ra được cấu trúc của một protein. Một cấu trúc đã “vất vả” như thế, trong lúc ngoài tự nhiên có hàng triệu protein thì đến bao giờ mới xong?!

Mở ngoặc ⦅

Bắt đầu từ năm 1976, giới khoa học đã bắt đầu làm thí nghiệm để xác định cấu trúc 3D của protein (xem Protein structure determination). Tính đến tháng 4/2020, giới khoa học đã xác định được 150,423 cấu trúc, trong đó chủ yếu bằng phương pháp tinh thể học tia X (135,170), tiếp đến bằng phương pháp cộng hưởng từ hạt nhân (11,337), bằng kính hiển vi điện tử đông lạnh (3,475), phương pháp lai (155) và bằng các phương pháp khác (286) – xem Protein Data Bank (CSDL protein, viết tắt là PDB).

⚠ Chú ý rằng đây là tập mẫu dữ liệu quan trọng và căn bản nếu phương pháp dự đoán cấu trúc protein (Protein Structure Prediction) sử dụng mô hình mạng nơ-ron (Neural Network).

Đóng ngoặc ⦆

Giải câu đố: Mô hình AlphaFold2.

Một cách tổng quan:

[Chuỗi trình tự 1D] ⇨ {AlphaFold 2} ⇨ [Cấu trúc 3D (phỏng đoán)]

Nghĩa là: Cho đầu vào là chuỗi các axít amin, mô hình {AlphaFold 2} cho đầu ra là cấu trúc 3D của protein (phỏng đoán). Cấu trúc 3D chính là tọa độ của các nguyên tử (heavy atom) của hạt tâm (axít amin). Cấu trúc 3D (phỏng đoán) có độ chính xác đạt trên 90% so với kết quả bằng phương pháp thí nghiệm.

Công việc trước đây mất nhiều năm giờ chỉ mất vài phút.

Khi Demis Hassabis và John Jumper xác nhận AlphaFold2 thực sự hoạt động, họ đã tính toán cấu trúc (3D) của tất cả các protein của con người. Sau đó, họ phỏng đoán cấu trúc của hầu như tất cả 200 triệu protein mà các nhà nghiên cứu đã phát hiện ra cho đến nay khi lập bản đồ các sinh vật trên Trái đất.

Google DeepMind cũng đã công khai mã AlphaFold2 và bất kỳ ai cũng có thể truy cập. Mô hình AI đã trở thành mỏ vàng cho các nhà nghiên cứu. Đến tháng 10 năm 2024, AlphaFold2 đã được hơn hai triệu người từ 190 quốc gia sử dụng. Trước đây, thường mất nhiều năm để có được cấu trúc protein (nếu tìm ra). Bây giờ, có thể thực hiện trong vài phút. Mô hình AI không hoàn hảo, nhưng nó ước tính độ chính xác của cấu trúc mà nó tạo ra, do đó các nhà nghiên cứu biết mà dự liệu.

⨮ Về nhánh thứ hai:

Nhánh này nói về lĩnh vực thiết kế protein - nghiên cứu tạo ra các protein “may đo theo yêu cầu” – có tên gọi là de novo protein. Nghĩa là protein được thiết kế hoặc điều chỉnh một cách đặc biệt để phù hợp với mục đích hoặc chức năng cụ thể nào đó. Đây là trào lưu bắt đầu phát triển vào cuối những năm 1990. Trong phần lớn các trường hợp, để tạo ra protein mới, người ta thường điều chỉnh các protein đã có trong tự nhiên. Nhóm nghiên cứu của David Baker táo bạo hơn, đặt vấn đề là tạo ra các protein hoàn toàn mới chưa hề có trong tự nhiên. Tất nhiên là rất thách thức.

Vấn đề đầu tiên là làm thế nào để thiết kế cấu trúc 3D của protein (sau khi đã cuộn gấp) căn cứ theo mục đích hoặc chức năng. Sau khi có cấu trúc 3D rồi thì câu hỏi tiếp theo là làm thế nào để biết chuỗi trình tự 1D tương đương của cấu trúc 3D này. Và cuối cùng là bước kiểm thử: đưa protein được thiết kế “trên giấy” vào “hiện trường” thật trong tự nhiên.

Sau khi thiết kế cấu trúc 3D của protein, họ đưa thiết kế này làm đầu vào phần mềm Rosetta và đầu ra là chuỗi axit amin (1D):

[Cấu trúc 3D (theo thiết kế)] ⇨ {Rosetta} ⇨ [Chuỗi trình tự 1D]

Để xác thực, họ đưa đoạn gen của chuỗi axit amin vào một loài vi khuẩn. Chúng ta hình dung là quá trình cuộn gấp sẽ xảy ra một cách tự nhiên trong cơ thể của loài vi khuẩn đó. Sau đó, họ xác định cấu trúc 3D của protein đã cuộn gấp trong vi khuẩn bằng phương pháp tinh thể học tia X (X-ray crystallography). Protein mà họ tạo ra, có tên gọi là “Top7”, có cấu trúc gần giống hệt như họ đã thiết kế.

Top7 là một tia sét bất ngờ đối với các nhà nghiên cứu trong lĩnh vực thiết kế protein. Những người trước đây đã tạo ra protein de novo chỉ có thể bắt chước các cấu trúc hiện có. Cấu trúc độc đáo của Top7 không tồn tại trong tự nhiên.

Baker đã công bố khám phá của mình vào năm 2003. Có lẽ đây là bước đột phá và nhờ đột phá này mà Baker nhận giải Nobel Hóa học năm 2024. (Đó là tôi đoán mò thế, chưa chắc đã đúng.)

Một số trong nhiều loại protein ngoạn mục được tạo ra trong phòng thí nghiệm của Baker được thể hiện trong hình minh họa dưới đây. Ông cũng đã công bố mã nguồn Rosetta, do đó, cộng đồng nghiên cứu toàn cầu tiếp tục phát triển phần mềm, tìm ra các lĩnh vực ứng dụng mới. Tham khảo: https://rosettacommons.org/

Nguồn.

Một số protein được phát triển bằng phần mềm Rosetta của Baker.

2016: Hình ảnh mô tả một cấu trúc của vật liệu nano mới mà trong đó có đến 120 protein có thể liên kết với nhau một cách tự phát, hình thành các hình dạng phức tạp, có tiềm năng ứng dụng trong các lĩnh vực như khoa học vật liệu hoặc y học.
2017: Một cấu trúc protein được mô tả có khả năng liên kết với một loại opioid gọi là fentanyl (được hiển thị bằng màu tím). Loại protein này có thể được sử dụng để phát hiện fentanyl trong môi trường, cung cấp giải pháp tiềm năng để quản lý cuộc khủng hoảng opioid.
2021: Một hạt nano được hiển thị với các hạt màu vàng đại diện cho lõi và các protein màu xanh lá cây trên bề mặt bắt chước virus cúm. Loại hạt nano này có thể được sử dụng làm vắc-xin cho cúm và đã thành công trong các mô hình thử nghiệm trên động vật.
2022: Điểm nhấn là các protein hoạt động như một loại rôto phân tử, điều này ám chỉ đến ứng dụng trong các thiết bị nano, nơi protein có thể đóng vai trò như các thành phần cơ học nhỏ.
2024: Các protein có thiết kế hình học được hiển thị. Những protein này có thể thay đổi hình dạng để phản ứng với các tác động từ bên ngoài, với tiềm năng ứng dụng trong việc tạo ra cảm biến siêu nhỏ có thể điều chỉnh dựa trên các yếu tố môi trường.

Dòng thời gian này làm nổi bật sự tiến bộ trong lĩnh vực thiết kế protein và công nghệ nano, cho thấy các protein được thiết kế có thể có những ứng dụng đa dạng, từ phát hiện thuốc cho đến vắc-xin và cơ chế phân tử.

Tin thêm:

Ngày 5/9/2024, DeepMind đăng bài AlphaProteo generates novel proteins for biology and health research (AlphaProteo tạo ra các protein mới cho việc nghiên cứu y sinh). Theo tôi hiểu thì AlphaProteo là một mô hình (mạng nơ-ron: neural network) có khả năng thiết kế các protein mới (giống chức năng của phần mềm Rosetta). Căn cứ theo bài post thì AlphaProteo có khả năng đặc biệt trong việc thiết kế loại protein kết dính (binder) với độ ái lực liên kết (binding affinity) cực cao.

Có thể anh/chị tò mò đặt câu hỏi: protein kết dính (binding protein) có tác dụng gì? Lấy một ví dụ cho dễ hiểu. Chúng ta biết rằng SARS-CoV-2 là virus gây ra đại dịch COVID-19. Để phá vỡ chức năng gây hại của SARS-CoV-2, một trong các phương pháp là tạo ra các protein kết dính với virus này. Khi có protein kết dính chặt vào thì chức năng gây hại của SARS-CoV-2 bị vô hiệu hóa (neutralized). Trong báo cáo sách trắng (whitepaper) của bài đăng, họ đã kiểm thử 4 loại protein kết dính do AlphaProteo thiết kế tương ứng với 4 biến thể của SARS-CoV-2. Tất cả 4 loại protein kết dính đó (GDM_SC2BRD_11, GDM_SC2BRD_27, GDM_SC2RBD_104 và GDM_SC2BRD_50) đều vô hiệu hóa thành công các biến thể của SARS-CoV-2.

🤔 Suy ngẫm chậm.

🥡 Có thể dễ dàng nhận thấy Machine Learning đóng vai trò rất lớn trong việc nghiên cứu y sinh. Tôi đọc nhiều bài báo ca ngợi AlphaFold. Họ ví bước đột phá của AlphaFold tương tự như Human Genome Project (dự án giải mã gen người), Hubble Space Telescope (đài thiên văn Hubble) hay việc phát hiện ra hạt Higgs. Machine Learning giúp giải quyết vấn đề mà cả nửa thế kỷ nay nhân loại gặp bế tắc.

🥡 Có một xu hướng đang định hình rất rõ ràng: thiết kế, chế tạo các protein de novo. David Baker có thể coi như tiên phong trong vấn đề này: tạo ra các protein chưa có tiền lệ, rất độc đáo, có thể ứng dụng vào nhiều lĩnh vực khác nhau trong cuộc sống. Hẳn nhiên, có nhiều đối tác khác vào cuộc. Machine Learning (như trường hợp AlphaProteo của Google DeepMind) có thể tạo ra các đột phá mới trong lĩnh vực này.

Trân trọng & vui nhã

(_/)
( •_•)
/ >☕

LeVanLoi

🏷 Bioinformatics | Tin sinh học
🏷 DeepMind
🏷 DNA | ADN
🏷 Machine Learning | Học máy
🏷 Protein

Bài trước ☚

☛ Bài sau