Khai thác sức mạnh của hệ gene học, phát hiện những yếu tố có nguy cơ gây ra những bệnh di truyền hoặc tìm kiếm người thân trên cơ sở phân tích số lượng bộ gene khổng lồ, đòi hỏi nhiều thời gian và chi phí cao.
Một nhóm nghiên cứu quốc tế do các nhà khoa học máy tính Đại
học Johns Hopkins dẫn đầu đã tạo ra nền tảng cơ sở điện toán đám mây, cho phép
các nhà nghiên cứu gene học dễ dàng truy cập vào một trong những cơ sở dữ liệu
bộ gene lớn nhất thế giới.
Được gọi là AnVIL (Genomic Data Science Analysis, Visualization,
Informatics Lab-space), nền tảng dữ liệu mới cung cấp cho các nhà khoa học, khi
kết nối Internet có quyền truy cập vào hàng nghìn công cụ phân tích, hồ sơ bệnh
nhân và hơn 300.000 bộ gene. Công trình khoa học, dự án thuộc Viện Bộ gene người
Quốc gia (NHGRI), được đăng trên Tạp chí Hệ gene tế bào .
Chủ nhiệm dự án Michael Schatz, GS Khoa học Máy tính và Sinh
học Cao cấp của Bloomberg tại Johns Hopkins cho biết, AnVIL đảo ngược mô hình
chia sẻ dữ liệu bộ gene, mang đến những cơ hội mới cho khoa học gene, kết nối
các nhà nghiên cứu và những cơ sở dữ liệu theo phương thức mới, tạo cơ sở cho
những khám phá có ý nghĩa quan trọng.
Thông thường, phân tích bộ gene bắt đầu bằng việc các nhà khoa
học tải một lượng lớn dữ liệu từ những kho tập trung đến trung tâm dữ liệu của
cơ sở. Quá trình này tiêu tốn nhiều thời gian, hiệu quả thấp và tốn kém, gây khó
khăn trong hợp tác với những nhà nghiên cứu ở nhưng cơ sở khác.
AnVIL mang tính chuyển đổi mới đối với tất cả các tổ chức mọi
quy mô, đặc biệt là những tổ chức nhỏ, không có nguồn lực xây dựng trung tâm dữ
liệu. AnVIL cho phép mọi người có quyền truy cập bình đẳng để nghiên cứu và
khám phá.
Những yếu tố nguy cơ di truyền các bệnh như ung thư hoặc tim
mạch thường rất tinh vi, đòi hỏi các nhà khoa học phải phân tích hàng nghìn bộ
gene bệnh nhân để phát hiện những mối liên quan. Dữ liệu thô một bộ gene người khoảng
40GB, tải xuống hàng nghìn bộ gene sẽ mất vài ngày đến vài tuần. Một bộ gene cá
nhân đơn yêu cầu khoảng 10 DVD giá trị dữ liệu, tải hàng nghìn bộ gene tương
đương với di chuyển "hàng chục nghìn DVD dữ liệu.
Hơn thế nữa, những nghiên cứu yêu cầu tích hợp dữ liệu, thu
thập tại nhiều cơ sở, có nghĩa là mỗi cơ sở phải tải xuống bản sao dữ liệu đồng
thời phải đảm bảo duy trì bảo mật dữ liệu bệnh nhân. Thách thức này càng ngày
càng lớn trong tương lai, khi các nhà khoa học tiến hành các nghiên cứu, đòi hỏi
phải phân tích hàng trăm nghìn đến hàng triệu bộ gen cùng lúc.
Kết nối với AnVIL từ xa loại bỏ nhu cầu tải xuống dữ liệu, tiết
kiệm thời gian và chi phí. Thay vì tải xuống, các nhà nghiên cứu trên thế giới
dễ dàng tiếp cận cơ sở dữ liệu trên đám mây điện toán.
Công nghệ cũng cho phép chia sẻ bộ dữ liệu dễ dàng, dữ liệu
có thể được kết nối theo những phương thức mới, hình thành các liên kết mới và đơn
giản hóa nhiều các vấn đề trong tính toán như dữ liệu được mã hóa mạnh và yếu tố
riêng tư của bệnh nhân.
AnVIL cung cấp cho các nhà khoa học một số công cụ phân tích
như Galaxy, được phát triển một phần tại Johns Hopkins và những công cụ phổ biến
khác như R/Bioconductor, sổ ghi chép Jupyter, WDL, Gen3 và Dockstore hỗ trợ
phân tích tương tác và những tính toán quy mô lớn. Những công cụ này cho phép
các nhà khoa học tiến hành những nghiên cứu lớn, không cần thiết phải xây dựng
môi trường máy tính cho công việc.
Các nhà khoa học trên thế giới hiện đang sử dụng nền tảng AnVIL
nghiên cứu nhiều loại bệnh di truyền phức tạp như rối loạn phổ tự kỷ, tim mạch
và động kinh. Nhóm nghiên cứu của GS Schatz thuộc Tổ hợp Telomere-to-Telomere, đã
sử dụng AnVIL phân tích lại hàng nghìn bộ gene người với hệ gene tham chiếu mới,
phát hiện được hơn 1 triệu biến thể.
Nhóm dự án AnVIL đã thu thập petabyte dữ liệu từ một số dự
án NHGRI lớn nhất, bao gồm hàng trăm nghìn bộ gene từ Chương trình Biểu hiện kiểu
gene (GTEx), Trung tâm di truyền Mendelian (CMG) và Trung tâm Gene bệnh thông
thường (CCDG ) dự án với kế hoạch tổ chức nhiều dự án khoa học lớn trong tương
lai gần.
Nhóm AnVIL bao gồm các nhà khoa học thuộc Đại học Johns
Hopkins, Viện Broad của MIT và Harvard, Đại học Harvard, Đại học Vanderbilt, Đại
học Chicago, Đại học Khoa học và Sức khỏe Oregon, Trường Y Đại học Yale, Đại học
California, Santa Cruz, Roswell Viện Ung thư Toàn diện Park, Đại học Bang
Pennsylvania, Đại học Thành phố New York, Viện Carnegie và Đại học Washington ở
St. Louis.
Công trình khoa học được hỗ trợ thông qua những giải thưởng
theo thỏa thuận hợp tác với NHGRI, đồng tài trợ từ Văn phòng Chiến lược Khoa học
Dữ liệu của Viện Y tế Quốc gia cho Viện Broad và Đại học Johns Hopkins.