Chính phủ công bố 15 bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo giai đoạn 2026-2030

Vũ Đậu Thứ Sáu, 08/05/2026 06:58

Danh mục dữ liệu phục vụ phát triển trí tuệ nhân tạo vừa được Chính phủ ban hành tập trung vào các lĩnh vực thiết yếu như ngôn ngữ tiếng Việt, dịch vụ công, y tế, giáo dục, kinh tế, giao thông và an ninh mạng.

Ban hành danh mục dữ liệu phục vụ phát triển trí tuệ nhân tạo trong lĩnh vực thiết yếu. (Ảnh minh họa).

Phó Thủ tướng Chính phủ Hồ Quốc Dũng vừa ký Quyết định số 804/QĐ-TTg ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu.

Theo Quyết định, Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu gồm 15 bộ dữ liệu quy định tại Phụ lục I.

Các bộ dữ liệu bao gồm: Ngôn ngữ tiếng Việt và tiếng dân tộc thiểu số; tri thức quốc gia; văn bản pháp luật và văn bản hành chính (không bao gồm văn bản mật); khoa học, công nghệ và đổi mới sáng tạo; dịch vụ công và thủ tục hành chính; y tế và chăm sóc sức khỏe; giáo dục và đào tạo; nông nghiệp; giao thông và đô thị; tài nguyên và môi trường; kinh tế và thị trường; văn hóa, di sản và du lịch; bản đồ và không gian địa lý quốc gia; viễn thông và hạ tầng số; đa ngôn ngữ quốc tế về Việt Nam.

Bên cạnh đó, Quyết định cũng ban hành Danh mục dữ liệu ưu tiên triển khai phục vụ phát triển trí tuệ nhân tạo tại Phụ lục II, được xây dựng trên cơ sở các bộ dữ liệu thuộc Phụ lục I.

Danh mục ưu tiên gồm 5 nhóm dữ liệu chính. Trong đó, nhóm dữ liệu phục vụ phát triển mô hình ngôn ngữ lớn tiếng Việt bao gồm dữ liệu ngôn ngữ tiếng Việt phổ thông, hội thoại và tương tác tiếng Việt, tiếng nói tiếng Việt, ngôn ngữ các dân tộc thiểu số, dữ liệu báo chí và truyền thông, pháp luật, khoa học, văn hóa và lịch sử Việt Nam cùng dữ liệu song ngữ và đa ngôn ngữ.

Nhóm dữ liệu phục vụ phát triển trí tuệ nhân tạo thị giác máy tính gồm dữ liệu đa phương tiện phục vụ hiểu ngữ cảnh hình ảnh và video; dữ liệu hình ảnh trong các lĩnh vực y tế, nông nghiệp, giao thông, đô thị và hạ tầng, vệ tinh và viễn thám.

Ngoài ra, Quyết định còn ưu tiên các nhóm dữ liệu phục vụ kiểm thử và đánh giá hệ thống trí tuệ nhân tạo; dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu; dữ liệu phục vụ đánh giá an toàn và độ tin cậy của trí tuệ nhân tạo như phát hiện tin giả, nhận diện sản phẩm đa phương tiện do trí tuệ nhân tạo tạo ra, phát hiện mã độc và các mối đe dọa an ninh mạng.

Theo Quyết định, các bộ dữ liệu thuộc Phụ lục I sẽ được triển khai trong giai đoạn 2026-2030, trong đó ưu tiên tập trung cho các danh mục dữ liệu tại Phụ lục II.

Việc thu thập, tạo lập, chia sẻ, xử lý, sử dụng và khai thác các bộ dữ liệu phải tuân thủ quy định của pháp luật về dữ liệu, bảo vệ dữ liệu cá nhân, bảo vệ bí mật nhà nước, sở hữu trí tuệ và các quy định pháp luật liên quan.