Trí thông minh nhân tạo (AI) và dữ liệu lớn (big data) giúp dự đoán khả năng ứng dụng trên lâm sàng của một nghiên cứu

Trí thông minh nhân tạo để dự đoán thành tựu khoa học nào có khả năng dễ dàng được ứng dụng trên lâm sàng đã được được phát triển bởi Hutchins và đồng nghiệp tại Trung tâm phân tích dữ liệu Portfolio (OPA). Đội ngũ nhà khoa học này được dẫn dắt bởi George Santangelo đến từ Viện Y tế Quốc gia Mỹ (NIH, USA).

Nghiên cứu này đã được mô tả trong bài báo Meta - Research, xuất bản vào ngày 10 tháng 10, trên tạp chí nghiên cứu mở PLOS Biology. Mục đích của nghiên cứu này là rút ngắn khoảng cách giữa nghiên cứu khoa học và ứng dụng lâm sàng. Phương pháp sẽ xác định khả năng một nghiên cứu sẽ được trích dẫn bởi một thử nghiệm hay hướng dẫn lâm sàng trong tương lai, một dấu hiệu (hay chỉ thị) sớm của quá trình chuyển đổi từ nghiên cứu tới thực tiễn.

Hutchins và đồng nghiệp đã tiến hành định lượng những dự đoán này với độ chính xác cao với dữ liệu của ít nhất hai năm sau khi được công bố, như là một thông số đo mới có tên gọi APT (Approximate potential to translate). Các nhà nghiên cứu cũng như những người đóng vai trò đưa ra quyết định cuối cùng có thể sử dụng giá trị APT này để tập trung sự chú ý vào những lĩnh vực khoa học tiềm năng chuyển giao lâm sàng. Mặc dù những số liệu này sẽ không thể nào thay thế hoàn toàn quá trình đánh giá của các chuyên gia, nhưng giá trị APT có khả năng đẩy nhanh quá trình nghiên cứu/thủ tục Y sinh như là một phần của việc đưa ra quyết định dựa vào số liệu.

anhcTrang020219

Hình: Quy trình định lượng APT

Mô hình ước tính giá trị APT đưa ra những dự đoán dựa trên nội dung của các bài nghiên cứu và những bài báo trích dẫn chúng. Một rào cản lớn nhất trong quá trình tính toán giá trị APT là những dữ liệu trích dẫn vẫn còn bị giấu kín bởi những ràng buộc của thỏa thuận độc quyền, giới hạn đọc và giấy phép đòi hỏi chi phí. Để phá vỡ những khó khăn này nhằm tiến tới một xã hội khoa học, OPA (Office of Portfolio Analysis – Văn phòng phân tích hồ sơ thuộc NIH) đã tiến hành tập hợp những dữ liệu được trích dẫn từ nguồn dữ liệu công khai để tạo ra một bộ dữ liệu khoa học mở (NIH-OCC), những dữ liệu này xuất hiện trong bài báo Community Page của cùng một ấn phẩm trên tạp chí PLOS Biology. Hiện tại, NIH-OCC gồm có hơn 420 triệu đường link trích dẫn và sẽ được cập nhật hàng tháng khi các trích dẫn được tập hợp.

Những dữ liệu trích dẫn từ NIH-OCC được sử dụng để tính toán giá trị APT và tỷ số trích dẫn tương đối (RCRs – Relative Citation Ratios). Giá trị RCRs, một thông số đo lường sự ảnh hưởng của một bài báo được phát triển trước đây bởi đội nghiên cứu của Santangelo tại NIH, đã được sử dụng một cách rộng rãi trong giới khoa học và cộng đồng đánh giá. Từ khi xuất bản, giá trị APT và NIH-OCC được sử dụng miễn phí như là những công cụ mới của iCite webtool và sẽ tiếp tục như là nguồn thông tin chủ yếu của dữ liệu RCRs (https://icite.od.nih.gov). Đội ngũ OPA khuyến khích việc sử dụng iCite để tăng cường việc đánh giá nghiên cứu và việc đưa ra quyết định có thể góp phần rút ngắn thời gian từ nghiên cứu đến thực tiễn lâm sàng.

Một nghiên cứu năm 2019 của Hutchins và đồng nghiệp về việc dự đoán quá trình chuyển đổi trong kỹ thuật sinh học đã sử dụng giá trị APT cho đánh giá của mình. Kết quả được thể hiện ở bảng sau:

anhCTrang2020220

Kết quả cho thấy các nghiên cứu kể từ năm 1999 đến 2009 đều có giá trị APT tương đối thấp < 50%. Điều này thể hiện các nghiên cứu này rất khó có thể ứng dụng vào lâm sàng. Nguyên nhân khiến giá trị APT thấp như vậy là do 3 lý do sau: Thứ nhất các nghiên cứu này cần phải được lặp lại vài lần mới có thể tăng giá trị APT, từ đó tăng khả năng ứng dụng vào lâm sàng. Thứ hai các tác giả không có sự kiểm soát chặt chẽ kết quả đầu ra và thiếu các kết quả nghiên cứu trong cộng đồng khoa học.

Lược dịch

ThS. Nguyễn Hồng Trang

Tài liệu tham khảo:

Ian Hutchins, Matthew T. Davis, Rebecca A. Meseroll, George M. Santangelo (2019), “Predicting translational progress in biomedical research”, PLOS Biology, 17 (10). DOI: 10.1371/journal.pbio.3000416