LeVanLoi'log, ⌚ 2023-08-13
***

☕ Nhàn đàm ICT: Ancestry DNA Test 🧬

Tác giả: Lê Văn Lợi

Phác họa bài post:
Ⓐ. Giải trình tự DNA cá nhân
Ⓑ. Suy diễn thông tin về tổ tiên
Ⓒ. Suy ngẫm chậm

Để giúp anh/chị quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan đến bài post này như sau:

Chủ đề: DNA, Bioinformatics (tin sinh học)
Tính thời sự: Tháng 3/2023.
Thời gian đọc: 7 phút, lồng vào thời gian uống cà phê (uống cà phê xong là đọc xong).

Trong một lần nhàn đàm trước, “DNA sequencing” (giải trình tự DNA), chúng ta biết rằng DNA gen người có khoảng 3 tỷ bp (base pair). Chúng ta cũng biết rằng tất cả các loài đều có gen di truyền. Loài người cũng vậy. Câu chuyện nhàn đàm lần này là: giả thiết chúng biết được trình tự DNA của cá nhân mình, liệu chúng ta có “suy diễn” được các thông tin về tổ tiên xa xưa hay không? Và nếu suy diễn được thì đó là các thông tin gì?

🧬

Ⓐ. Giải trình tự DNA cá nhân

Không để anh/chị đợi lâu (😊), tôi xin giới thiệu 2 nơi cung cấp dịch vụ này, đó là AncestryDNA và 23andMe.

Tóm tắt dịch vụ: chúng ta nhổ nước bọt vào một ống nghiệm, gửi đến cơ sở của họ và sau một thời gian thì chúng ta nhận được nhiều bản báo cáo phân tích, trong đó có bản báo cáo thông tin về tổ tiên! Rất đơn giản, đúng không ạ?

Đơn giá dịch vụ: Nếu anh/chị có nhã ý sử dụng dịch vụ của họ thì anh/chị vui lòng kiểm tra giá dịch vụ tại 2 đường link tôi đã cung cấp ở trên. Vào thời điểm của bài post này, nếu anh/chị chỉ quan tâm đến thông tin tổ tiên của mình, giá dịch vụ là 99 đô la Mỹ.

Khoảng bao lâu thì có kết quả? Dịch vụ AncestryDNA mất khoảng 13 tuần, còn 23andMe mất khoảng 10 tuần kể từ thời điểm gửi mẫu phẩm vật (nước bọt).

Số lượng khách hàng? Dịch vụ AncestryDNA có khoảng 18 triệu khách hàng, 23andMe có khoảng 12 triệu khách hàng, ước tính đến ngày 1/3/2023.

🧬

Ⓑ. Suy diễn thông tin về tổ tiên

Chúng ta hình dung cách họ cung cấp dịch vụ như sau.

Bước 1: Tách DNA từ nước bọt

► Sau khi đăng ký “mua dịch vụ”, họ gửi đến cho chúng ta một ống tube để chúng ta nhổ nước bọt vào đó và gửi đến địa chỉ của họ theo đường bưu điện.

► Khi họ nhận được ống tube, họ lọc DNA sau khi tách các tạp chất ra khỏi nước bọt.

► Tiếp đó, họ nhân bản DNA (theo nguyên lý của PCR), rồi cắt nhỏ thành từng đoạn ngắn.

► Người ta đưa các đoạn cắt ngắn này vào một máy có tên gọi là “genotyping array” – tạm dịch là máy xác định kiểu gen.

▼ Giải thích

Nguyên lý của xác định kiểu gen là như thế nào? Chúng ta hình dung rằng mỗi một cá nhân có một chuỗi DNA khoảng 3 tỷ ký tự (A, C, G, T). Chúng ta cũng biết rằng DNA của người có đến hơn 99.5% giống nhau nên các đơn vị cung dịch vụ họ không giải trình tự DNA theo cách thông thường. Họ chỉ tìm cách tách phần khác nhau của từng cá nhân so với chuỗi DNA chung. Mỗi một nucleotide của phần khác nhau đó có tên gọi là SNP (Single-nucleotide polymorphism). SNP là gì? Một cách nôm na: đó chính là vị trí mà các ký tự (A, C, G, T) tại vị trí đó không cố định: lúc thì A, lúc thì C, lúc thì G, lúc thì T. Nghĩa là nucleotide tại điểm đó đa hình (polymorphic). Người ta ước tính có 15 triệu SNP (tính trên 3 tỷ nucleotide thì số này chiếm khoảng 0.4%).

Có một điểm rất đáng chú ý: SNP truyền từ bố mẹ sang con cái, rất ít khi có biến dị. Nghĩa là nếu chúng ta biết được tập hợp các SNP của mình thì có cơ sở để phỏng đoán SNP của bố, mẹ. Từ phỏng đoán SNP của bố, mẹ, chúng ta có cơ sở để phỏng đoán SNP của ông, bà nội, ngoại. Tiếp tục dòng phỏng đoán kiểu này người ta có thể suy diễn ra thông tin về tổ tiên.

▲Giải thích

Bước 2: So sánh DNA với các DNA đã biết rõ nguồn gốc tổ tiên

Xuất phát từ đặc điểm di truyền của SNP, phương pháp chung của các công ty cung cấp dịch vụ là so sánh DNA của một cá nhân với tập hợp các DNA đã biết rõ nguồn gốc tổ tiên, có tên gọi là bảng tham chiếu (Reference Panel).

► Người ta tạo bảng tham chiếu (một dạng cơ sở dữ liệu) gồm các mẫu DNA từ các cá nhân có tổ tiên đã biết. Những mẫu này thường đến từ các quần thể (population) khác nhau trên khắp thế giới. Bảng tham chiếu đóng vai trò là cơ sở gốc (baseline) để so sánh. Ví dụ, AncestryDNA có hơn 1800 vùng tham chiếu trên toàn thế giới. Trong lúc đó, 23andMe chia thành 47 quần thể (population). Bảng tham chiếu dựa trên tên châu lục, vùng, tên quốc gia / vùng lãnh thổ nên rất dễ nhận biết. Cả 2 dịch vụ AncestryDNA và 23andMe đều có tham chiếu đến Việt Nam.

► Tiếp theo, người ta lấy tập hợp các SNP từ DNA đem so sánh với tất cả các bản ghi của bảng tham chiếu. Chúng ta hình dung là kết quả so sánh không khớp được 100% mà chỉ khớp với “bản ghi 1” khoảng 45%, “bản ghi 2” khoảng 30%, “bản ghi 3” khoảng 20%, …, “bản ghi 10” khoảng 0.3%. Các bản ghi đại diện cho vùng tham chiếu hoặc nhóm quần thể.

► Để anh/chị có thể hình dung cách họ làm “Ancestry Report”, tôi xin lấy 2 mẫu từ AncestryDNA và 23andMe.

Mẫu “Ethnicity Estimate” của AncestryDNA

Nguồn.

Mẫu “Ancestry Composition Report” của 23andMe.

Nguồn.

Bàn thêm về thông tin trong “Ancestry Report”

► Hẳn nhiên, anh/chị đều hiểu thông tin đọc được trong “Ancestry Report” chỉ là tương đối. Giả dụ anh/chị gửi tube nước bọt của mình đến 2 cơ sở xét nghiệm của AncestryDNA và 23andMe thì gần như chắc chắn họ sẽ cho kết quả khác nhau! Cứ cho rằng họ giải trình tự DNA của chúng ta chính xác (nghĩa là chuỗi DNA từ AncestryDNA giống với chuỗi DNA từ 23andMe), cái khác biệt trong các bản thông tin về tổ tiên xuất phát từ việc họ có các bảng tham chiếu (Reference Panel) khác nhau, đó là chưa nói đến họ sử dụng các thuật toán so sánh cũng khác nhau.

► Có một điểm đáng chú ý nữa: bảng tham chiếu của họ liên tục thay đổi. Khi có thêm khách hàng, họ sẽ điều chỉnh bảng tham chiếu. Vì vậy, nếu chúng ta làm xét nghiệm của cùng một cơ sở thì kết quả thông tin “Ancestry Report” lần này và “Ancestry Report” 2 năm sau sẽ khác nhau! 😊.

► Còn nữa, anh chị em cùng bố mẹ có thể xảy ra trường hợp có “Ancestry Report” khác nhau. Vì sao vậy? Vì xét nghiệm mà các cơ sở này thực hiện là dựa trên di truyền. Mà anh chị em trong cùng một gia đình thừa hưởng các đặc tính di truyền khác nhau từ tổ tiên là chuyện bình thường. Lưu ý rằng một nửa DNA của chúng ta thừa hưởng từ DNA của bố và một nửa thừa hưởng từ DNA của mẹ. Một nửa thừa hưởng từ bố của người anh khác một nửa thừa hưởng từ bố của người em. Một nửa thừa hưởng từ mẹ của người anh cũng khác một nửa thừa hưởng từ mẹ của người em.

► Bảng tham chiếu (Reference Panel) là tham chiếu đến các vùng địa lý. Chú ý rằng bảng tham chiếu chỉ mang tính đại diện cho tập hợp các chuỗi DNA có tổ tiên gần giống nhau, bảng tham chiếu không phải là lịch sử. Nếu kết quả “Ancestry Report” nói rằng tổ tiên của chúng ta ở vùng A, điều đó không chắc chắn nói lên rằng các thế hệ tổ tiên chúng ta đã sống ở vùng A. Bản thân DNA không ghi lại được lịch sử di cư trong quá khứ. DNA cũng không có khả năng ghi lại dân cư vùng A nói ngôn ngữ gì, không ghi lại được các tập tục sinh hoạt cộng đồng của vùng A, …

🧬

► “Mất khoảng 100 đô la Mỹ để tìm hiểu nguồn gốc xa xưa của mình” quả là có sức hấp dẫn. Đó chính là lý do vì sao có nhiều người “tự nguyện” đóng góp chuỗi DNA của mình vào “kho dữ liệu” của cơ sở xét nghiệm “Ancestry DNA Test”. Đây quả là một cách làm thông minh của các cơ sở này nhằm thu thập thông tin (và kinh doanh).

► Chú ý rằng chuỗi DNA cá nhân (khoảng 3 tỷ bp), bản thân nó đã là một kho dữ liệu khổng lồ. Các cơ sở xét nghiệm như AncestryDNA hay 23andMe có hàng chục triệu bản ghi như vậy. DNA hàm chứa rất nhiều thông tin mà cho đến tận thời điểm hiện nay, các nhà khoa học vẫn chưa hiểu hết. Khi có các nghiên cứu, phát hiện mới về DNA liên quan đến nhân chủng học thì chính các cơ sở này họ hiểu chúng ta hơn chính chúng ta hiểu về mình.

“Chuỗi DNA không biết nói dối” hé mở nhiều bí ẩn trong quá khứ vẫn làm cho chúng ta không khỏi tò mò. Năm ngoái (2022) giải Nobel về y sinh (Nobel Prize in Physiology or Medicine) đã trao cho Svante Pääbo "cho những khám phá của ông liên quan đến bộ gen của loài vượn người đã tuyệt chủng và sự tiến hóa của loài người". Ông này đã giải trình tự DNA của loài hominin Neanderthal – một loài vượn người sống cách đây khoảng hơn 40 nghìn năm đã tuyệt chủng – từ trầm tích. Nếu anh/chị quan tâm, anh/chị có thể đọc bài này ở đây (rất dài). Trong tương lai không xa, các nhà khoa học có thể giải trình tự DNA từ các khai quật khảo cổ, có thể vẽ bức tranh sinh học “lịch sử các quần thể loài người”. Từ đó, các “huyền thoại” mà chúng ta thường đọc được từ sách vở có thể cần phải điều chỉnh! 😊

Cuối cùng, tôi nhờ một người ngoài hành tinh mời anh/chị một tách cà phê, không biết anh/chị có dám uống hay không (tranh do phần mềm trí tuệ nhân tạo Adobe Firefly vẽ). Giả định trong bức tranh này là tế bào của người ngoài hành tinh cũng có DNA giống với các loài sinh vật trên Trái Đất! 😊

🏷 Bioinformatics | Tin sinh học
🏷 DNA | ADN

Bài trước ☚

☛ Bài sau