(GMT+07) Thứ năm 3/4/2025 -+- Ngày 6 tháng 3 năm Ất Tỵ

LeVanLoi'log, ⌚ 2021-07-30
***

☕ Nhàn đàm ICT: Protein Structure Prediction 🧬

Tác giả: Lê Văn Lợi

Bài đã đăng trên diễn đàn ICT_VN (ict_vn@googlegroups.com).
Ngày đăng: 30-7-2021.
-
Phác họa bài post:
Đặt vấn đề
Cuộc thi CASP
AlphaFold (DeepMind)
➡ Nói về CSDL cấu trúc protein.
➡ Phương pháp tiếp cận của AlphaFold phiên bản CASP14.
🤔 Một vài suy ngẫm.

Để giúp anh/chị quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan đến bài post này như sau:

Chủ đề: Bioinformatics, Machine Learning
Tính thời sự: Tháng 7 năm 2021.
Thời gian đọc: 10 phút, kể cả thời gian uống cà phê.

Để phục vụ anh/chị nhâm nhi cà phê lần này, tôi xin phép đàm luận về protein (đạm). Protein là thành phần cơ bản của sự sống (life). Dưới góc độ hệ thống điện toán, một số protein đảm nhận chức năng cảm biến, một số khác đảm nhận chức năng thực thi, một số lại đảm nhận chức năng quản trị. Nói một cách khác: protein “vận hành” sự sống. Protein được tạo thành từ chuỗi a-xit a-min, có cấu trúc 3D phức hợp. Các chức năng của protein phụ thuộc vào cấu trúc 3D này. Để hiểu chức năng của một protein, người ta phải biết cấu trúc 3D của protein đó. Ví dụ: Khi hiểu được chức năng của protein, người ta có thể nghiên cứu các mô hình bệnh tật. Trên cơ sở mô hình bệnh tật, người ta có thể sản xuất dược phẩm để phòng và chữa bệnh.

🧬

Đặt vấn đề

❓ Thưa anh/chị, khi nghiên cứu protein, người ta nhận thấy có một vấn đề rất thách thức, có tên gọi là “protein folding problem” (vấn đề cuộn gấp protein). Ông Christian B. Anfinsen, trong phát biểu nhận giải Nobel năm 1972, có nói, khi biết được trình tự chuỗi a-xít a-min của một protein, về mặt nguyên tắc, chúng ta sẽ biết cấu trúc 3D của protein đó. Định đề giả thuyết này đã khơi mào cho một thách thức kéo dài suốt 5 thập kỷ (1972-2021). Đó là:
“Cho biết cấu trúc một chiều (1D) của protein hãy tìm cấu trúc ba chiều (3D) tương đương (duy nhất) của nó!”

║ Chi tiết: Phát biểu trên không hẳn là đầy đủ, nó chỉ nói lên được tính thách thức của vấn đề, chứ chưa đề cập đến tính đặc trưng của chuỗi các a-xít a-min. Định đề nói rằng, ở trong điều kiện môi trường nhất định (nhiệt độ, nồng độ dung môi, v.v.) quá trình cuộn gấp xảy ra và chúng ta chú ý tính chất này: cấu trúc nguyên bản (native structure) – sau khi quá trình cuộn gấp kết thúc – là duy nhất. Nói cách khác, chỉ có duy nhất một cấu trúc 3D tương đương với chuỗi trình tự ban đầu của protein – xem Anfinsen's dogma.

↓

Hãy hình dung cấu trúc của một protein: giống như sợi các hạt gắn với nhau.
Các hạt chính là các hóa chất có tên gọi là a-xit a-min. Chỉ có 20 loại a-xít a-min khác nhau (Alanine, Arginine, Asparagine, Aspartic acid, Cysteine, Glutamine, Glutamic acid, Glycine, Histidine, Isoleucine, Leucine, Lysine, Methionine, Phenylalanine, Proline, Serine, Threonine, Tryptophan, Tyrosine, Valine).
Các sợi hạt này được lắp ráp, cuộn gấp tuân theo các “câu lệnh” (instruction) của DNA (gen).
Lực hút và lực đẩy giữa 20 loại a-xít a-min khác nhau khiến chuỗi gấp lại theo kiểu ‘gấp giấy tự động’ trong nháy mắt, tạo thành các lọn, vòng và nếp gấp phức tạp: cấu trúc 3D của protein.
Cơ thể người có bao nhiêu loại protein? ~ 20,000.
Trên Trái Đất có bao nhiêu loại protein? ~ 100,000,000.

Để xác định được cấu trúc 3D của protein, giới nghiên cứu đã sử dụng rất nhiều phương pháp thí nghiệm hiện đại như nuclear magnetic resonance (cộng hưởng từ hạt nhân), X-ray crystallography (tinh thể học tia X), cryogenic electron microscopy (kính hiển vi điện tử đông lạnh). Tuy đã sử dụng các công cụ hiện đại và đắt tiền (nhiều triệu đô-la một thiết bị) nhưng việc làm thí nghiệm là một quá trình gian nan, mất nhiều công sức và phải mất hàng tháng, hàng năm trời mới tìm ra được cấu trúc của một protein. Một cấu trúc đã “vất vả” như thế, trong lúc ngoài tự nhiên có hàng triệu protein thì đến bao giờ mới xong?!

Mở ngoặc ⦅

Bắt đầu từ năm 1976, giới khoa học đã bắt đầu làm thí nghiệm để xác định cấu trúc 3D của protein (xem Protein structure determination). Tính đến tháng 4/2020, giới khoa học đã xác định được 150,423 cấu trúc, trong đó chủ yếu bằng phương pháp tinh thể học tia X (135,170), tiếp đến bằng phương pháp cộng hưởng từ hạt nhân (11,337), bằng kính hiển vi điện tử đông lạnh (3,475), phương pháp lai (155) và bằng các phương pháp khác (286) – xem Protein Data Bank (CSDL protein, viết tắt là PDB).

⚠ Chú ý rằng đây là tập mẫu dữ liệu quan trọng và căn bản nếu phương pháp dự đoán cấu trúc protein (Protein Structure Prediction) sử dụng mô hình mạng nơ-ron (Neural Network).

Đóng ngoặc ⦆

🧬

Cuộc thi CASP

💡 Để xúc tiến việc nghiên cứu phương pháp phỏng đoán cấu trúc 3D của protein, cộng đồng nghiên cứu có cách làm rất thông minh nhằm tập hợp các tài năng của thế giới. Năm 1994, Giáo sư John Moult và Giáo sư Krzysztof Fidelis thành lập CASP (Critical Assessment of methods of protein Structure Prediction - Đánh giá biện chứng các phương pháp phỏng đoán cấu trúc protein). Sự kiện này được tổ chức 2 năm một lần nhằm đánh giá một cách khách quan các phương pháp phỏng đoán cấu trúc protein.

Ý tưởng là như thế nhưng người ta tổ chức như thế nào để đạt được mục tiêu? Cách làm của CASP có mấu chốt nằm ở khâu ra đề. Họ chọn khoảng 100 protein đã được các phòng thí nghiệm mới nghiên cứu và cấu trúc 3D của chúng chưa được công bố, thậm chí là ngay cả các phòng thí nghiệm đó cũng chưa biết, đang trong quá trình hoàn thiện. Các nhóm tham gia “thi” sẽ nhận được đề bài là dự đoán cấu trúc 3D của các protein loại này (cho biết trước chuỗi trình tự của các a-xít a-min).

Việc chấm bài chủ yếu dựa trên so sánh cấu trúc phỏng đoán với cấu trúc thực (ground truth) – được lấy ra từ phòng thí nghiệm. Phương pháp so sánh dựa vào global distance test (GDT). Thước đo GDT dùng để đo mức độ tương tự (similarity) giữa 2 cấu trúc 3D (không gian 3 chiều), được tính theo tỷ lệ phần trăm giống nhau [0%-100%]. Ngưỡng bao nhiêu thì có thể coi là hai cấu trúc “giống” nhau? Theo GS. John Moult, nếu điểm đạt đến 90 (hoặc hơn) thì có thể coi cấu trúc phỏng đoán “có tính cạnh tranh cao” so với kết quả từ phòng thí nghiệm. Lưu ý rằng bản thân kết quả của phòng thí nghiệm cũng có sai số - các thí nghiệm không bao giờ chính xác tuyệt đối. Đơn vị đo trong các thí nghiệm là Angstrom (ký hiệu là Å), bằng 10^-10 mét, kích cỡ ở mức nguyên tử. Đó là lý do vì sao sự sai khác dưới 10% có thể chấp nhận được.

🧬

AlphaFold (DeepMind)

🛈 Tại cuộc thi CASP14 (năm 2020), nhóm AlphaFold của DeepMind đạt điểm 92.4 GDT, là quán quân của cuộc thi, bỏ xa tất cả các nhóm phía sau. Đây được xem là một đột phá lớn cho ngành proteome (ngành protein học): cho chuỗi trình tự của một protein, bằng phương pháp của nhóm AlphaFold, trong một thời gian cực ngắn, các nhà khoa học biết được cấu trúc 3D của protein đó mà không cần phải làm thí nghiệm!

Mời anh/chị tham khảo vài bài ngợi ca từ các tạp chí khoa học hàng đầu thế giới dành cho AlphaFold:

Tạp chí Nature: ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures (‘Mọi thứ sẽ thay đổi’: Trí tuệ nhân tạo của DeepMind tạo ra bước nhảy vọt trong việc giải cấu trúc protein).
Tạp chí Science: ‘The game has changed.’ AI triumphs at solving protein structures (‘Cuộc chơi đã thay đổi.’ Trí tuệ nhân tạo chiến thắng trong việc giải quyết các cấu trúc protein).
Tạp chí MIT Technology Review: DeepMind’s protein-folding AI has solved a 50-year-old grand challenge of biology (Trí tuệ nhân tạo cuộn gấp protein của DeepMind đã giải quyết một thách thức lớn trong 50 năm tuổi của ngành sinh học).

➡ Nhóm AlphaFold đã dự thi CASP từ năm 2018 (CASP13). Năm đó AlphaFold vẫn đạt giải nhất nhưng khoảng cách so với các đối thủ khác là chưa đáng kể. Bài đăng trên tạp chí Nature, ngày 15/01/2020 (bài báo). Bài rất dài, có lẽ rất ít người đủ kiên nhẫn đọc kỹ. Để anh/chị đỡ mất thời gian tôi xin tóm lược: họ sử dụng Deep Learning (mạng nơ-ron nhiều lớp), và mô hình là một biến thể của CNN (Convolutional Neural Network). Khi đọc bài báo, có lẽ một số người sẽ ngạc nhiên: CNN dùng để nhận dạng ảnh là chính, sao họ lại sử dụng mô hình này để phỏng đoán cấu trúc 3D? Hóa ra họ huấn luyện dựa trên đầu vào là cấu trúc đã được lưu trong PDB (Protein Data Bank) và đầu ra (phỏng tính – prediction) là khoảng cách d_ij của cặp a-xít a-min bất kỳ (i,j) trong chuỗi trình tự 1D của protein. Từ kết quả này, người ta dựng biểu đồ khoảng cách liên kết các cặp hạt tâm (residue của a-xít a-min) lại với nhau. Biểu đồ này có tên gọi là distogram (distogram là ghép từ ‘distance’ với histogram). Từ distogram, người ta tạo cấu trúc 3D của protein bằng cách uốn các đường thẳng từ tâm a-xít a-min này đến tâm a-xít a-min kia dựa theo góc xoắn khi hai a-xít a-min này liên kết.

🛈 Bây giờ chúng ta quay trở lại với CASP14 (2020). CASP14 ra thông cáo báo chí ngày 30/10/2020. Cùng ngày, DeepMind cũng có bài trên blog của họ. Trong bài blog, họ cam kết là sẽ xuất bản bài báo khoa học trong thời gian quy định trên một tạp chí để bình duyệt (peer-review) kết quả. Phải đến ngày 22/07/2021 (8 tháng sau) họ mới có một thông báo tiếp theo. Trong thông báo đó, ngoài 2 bài báo bình duyệt (peer-review) họ nộp cho tạp chí Nature (bài 1: Highly accurate protein structure prediction with AlphaFold, bài 2: Highly accurate protein structure prediction for the human proteome) họ còn kết hợp với Viện Tin sinh học Châu Âu (European Bioinformatics Institute) thuộc Phòng thí nghiệm Sinh học Phân tử Châu Âu (European Molecular Biology Laboratory) khai trương CSDL cấu trúc protein.

➡ Nói về CSDL cấu trúc protein.

Để anh/chị hình dung được công việc họ đã hoàn thành: từ năm 1976 đến năm 2020, giới khoa học, bằng các thí nghiệm, đã thu thập được khoảng 170,000 cấu trúc protein. Chỉ trong vòng chưa đầy 8 tháng, họ (DeepMind) cung cấp dữ liệu (miễn phí) cho khoảng 350,000 cấu trúc protein, hơn gấp đôi số lượng cấu trúc protein trước đó! Tất nhiên số lượng khoảng 180,000 cấu trúc protein thêm vào là do kết quả “suy luận” của mô hình AlphaFold. Thế mới thấy sức mạnh của Machine Learning!

Bàn luận chi tiết hơn một chút về CSDL này. Chúng ta biết là cơ thể người có khoảng 20,000 loại protein. Trước năm 2020, giới khoa học mới chỉ biết đến 17% trong số này. AlphaFold đã “phỏng đoán” đến 98.5% cấu trúc protein trên cơ thể người. Tức là chỉ trong một thời gian ngắn, họ đã “khám phá” ra cấu trúc 3D của hầu hết các protein đó!

Ngoài các protein trên cơ thể người, CSDL có cấu trúc protein của 20 loại sinh vật khác.

Trong thời gian sắp tới, họ có kế hoạch cung cấp cấu trúc của khoảng 100 triệu protein, hình thành “niên giám” (almanac) protein thế giới!

Tất nhiên, AlphaFold “suy luận” từ kết quả của 170,000 thí nghiệm. AlphaFold phải dựa vào điểm tựa “khổng lồ” này, là công sức vô giá của giới khoa học trong gần 50 năm.

➡ Phương pháp tiếp cận của AlphaFold phiên bản CASP14.

Phiên bản này khác so với phiên bản CASP13 của chính họ. Lần này, họ quan niệm cấu trúc 3D của protein là một loại “đồ thị không gian” (spatial graph), trong đó mỗi nút là hạt tâm (residue của a-xít a-min) còn cạnh của đồ thị là liên kết của 2 hạt tâm. Bài báo bình duyệt (peer-review) rất dài và mô hình của AlphaFold khá phức tạp. Để tiết kiệm thời gian, tôi xin “nôm na” nêu vài ý chính:

💡 Mô hình: end-to-end, kết hợp với cơ chế Attention:

[Chuỗi trình tự 1D] ⇨ {AlphaFold Network} ⇨ [Cấu trúc 3D]

Nghĩa là: Cho đầu vào là chuỗi trình tự bậc 1 các a-xít amin (primary amino acid sequence), mạng AlphaFold Network phỏng đoán trực tiếp cấu trúc 3D của protein. Cấu trúc 3D theo quan điểm của AlphaFold chính là các tọa độ của các nguyên tử (heavy atom) của từng hạt tâm a-xít a-min.

💡 Huấn luyện: Điểm đáng chú ý là họ huấn luyện với mẫu dữ liệu đã được dán nhãn (~170 nghìn bản ghi trong PDB) và cả mẫu dữ liệu chưa được dán nhãn.

Bước 1. Huấn luyện với mẫu đã được dán nhãn: Mẫu dữ liệu là cặp (Chuỗi trình tự 1D, Cấu trúc 3D) lấy từ PDB (đã có sẵn). Sau khi huấn luyện xong, người ta cho mô hình này phỏng đoán khoảng 350,000 cấu trúc, lấy các chuỗi trình tự 1D từ cơ sở dữ liệu có tên là Uniclust30.

Bước 2. Tiếp theo, người ta huấn luyện lại từ đầu. Chuỗi trình tự đầu vào 1D được lấy hỗn hợp từ PDB và kết quả vừa mới được phỏng đoán ở bước 1. Lúc này tập mẫu vừa được tạo ra ở bước 1 được dán nhãn giả (pseudo-label).

Khi huấn luyện bước 2, họ làm nhiễu dữ liệu theo nhiều phương pháp nhằm làm cho mô hình phỏng đoán kết quả chính xác hơn.

🧬

🤔 Một vài suy ngẫm.

Đúng là khoa học phát triển không đợi ai. Các môn học như Machine Learning hay Bioinformatics đã được các cơ sở đào tạo nào ở Việt Nam triển khai? Tôi không có thông tin. Có cách nào đó để xúc tiến các môn học – lĩnh vực rất mới này không? Đây là câu hỏi khó. Có lẽ chúng ta đợi câu trả lời từ các anh/chị là lãnh đạo trong Chính phủ hoặc các hiệp hội ngành khoa học.

Qua bài post này, tôi có vài suy nghĩ “vụn”, chủ yếu là để anh/chị uống nốt chút cà phê còn đọng lại trong cốc của mình.

🥡 Có thể học theo cách tổ chức sự kiện như CASP không? Nghĩa là có một tổ chức, một nhóm nào đó tạo ra một “thách thức” (challenge) để cho cộng đồng trong nước (và có thể cả ở nước ngoài) tham gia giải “thách thức” đó. Chú ý rằng CASP sử dụng thước đo GDT để “chấm bài”. Thước đo GDT là thước đó công khai, minh bạch và khách quan. Bản thân tác giả của thước đo GDT cũng đã đăng ký sở hữu trí tuệ. Thước đo GDT không phụ thuộc vào ý kiến chủ quan của bất cứ một hội đồng nào cả! 😊

🥡 Có nên định hướng một số luận văn tốt nghiệp sinh viên CNTT theo hướng Machine Learning và Bioinformatics? Theo tôi, đây là cách nhanh nhất để các tài năng trẻ tiếp cận các vấn đề mới nhất của khoa học và công nghệ. Tài liệu thì nhiều “vô kể”, tất cả đều nằm ở đó: Internet. Chỉ có một rào cản nhỏ: tiếng Anh. Tuy nhiên, tiếng Anh là bắt buộc đối với sinh viên ngành CNTT, đặc biệt đối với các sinh viên ham học hỏi các chủ đề mới thì tiếng Anh không phải là vấn đề.

(_/)
( •_•)
/ >☕

🏷 Bioinformatics | Tin sinh học
🏷 DeepMind
🏷 Machine Learning | Học máy
🏷 Protein

☛ Bài sau