Tổng thuật nghiên cứu về mô hình Tri-3DUNet trong phân loại ảnh siêu phổ viễn thám

Một nghiên cứu mới công bố trên tạp chí Scientific Reports năm 2025 đã đề xuất mô hình Tri-3DUNet nhằm nâng cao hiệu quả phân loại ảnh siêu phổ dựa trên học sâu. Nghiên cứu do Mahmood Ashraf và cộng sự thực hiện đã phát triển kiến trúc mạng nơ-ron ba nhánh kết hợp cơ chế attention không gian – phổ, qua đó cải thiện đáng kể độ chính xác phân loại so với các phương pháp trước đây.

Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của công nghệ viễn thám và trí tuệ nhân tạo, ảnh siêu phổ (Hyperspectral Image – HSI) đã trở thành một trong những nguồn dữ liệu quan trọng phục vụ giám sát tài nguyên, môi trường, nông nghiệp chính xác và quản lý đô thị. Khác với ảnh đa phổ thông thường, ảnh siêu phổ chứa hàng trăm dải phổ liên tục, cho phép nhận dạng chi tiết đặc tính vật lý và hóa học của đối tượng trên bề mặt Trái đất. Tuy nhiên, việc khai thác hiệu quả nguồn dữ liệu này vẫn là một thách thức lớn do tính chất dữ liệu có chiều cao, mối quan hệ phi tuyến phức tạp và hạn chế về mẫu huấn luyện.

Một nghiên cứu mới công bố trên tạp chí Scientific Reports năm 2025 đã đề xuất mô hình Tri-3DUNet nhằm nâng cao hiệu quả phân loại ảnh siêu phổ dựa trên học sâu. Nghiên cứu do Mahmood Ashraf và cộng sự thực hiện đã phát triển kiến trúc mạng nơ-ron ba nhánh kết hợp cơ chế attention không gian – phổ, qua đó cải thiện đáng kể độ chính xác phân loại so với các phương pháp trước đây.

Theo nhóm tác giả, các phương pháp truyền thống như Support Vector Machine (SVM), cây quyết định hay các mô hình hồi quy mặc dù từng được ứng dụng rộng rãi trong phân loại HSI nhưng gặp nhiều hạn chế khi xử lý dữ liệu có chiều phổ lớn và quan hệ phổ – không gian phức tạp. Sau đó, các phương pháp học sâu dựa trên CNN và UNet được phát triển nhằm tận dụng khả năng tự động học đặc trưng của dữ liệu. Tuy nhiên, nhiều kiến trúc UNet hiện nay vẫn gặp khó khăn trong việc duy trì thông tin cục bộ và toàn cục, xử lý mất cân bằng lớp và suy giảm độ phân giải trong ảnh siêu phổ.

Để giải quyết những hạn chế này, nghiên cứu đã đề xuất mô hình Tri-3DUNet với ba nhánh xử lý độc lập gồm: nhánh trích xuất đặc trưng không gian, nhánh trích xuất đặc trưng phổ và nhánh kết hợp đồng thời thông tin phổ – không gian. Điểm mới của kiến trúc nằm ở việc mỗi nhánh đều được tích hợp cơ chế attention nhằm tăng cường khả năng tập trung vào các đặc trưng quan trọng nhất của dữ liệu. Trong đó, spatial attention tập trung vào các vùng không gian quan trọng, spectral attention ưu tiên các kênh phổ có giá trị phân biệt cao, còn spatial-spectral attention cho phép khai thác đồng thời mối quan hệ giữa hai loại thông tin này.

Mô hình Tri-3DUNet được xây dựng trên nền tảng 3D-UNet với cấu trúc encoder–decoder. Ở phần encoder, hệ thống sử dụng các lớp tích chập 3D để trích xuất đặc trưng không gian – phổ từ khối dữ liệu HSI. Các đặc trưng sau đó được xử lý thông qua attention mechanism trước khi truyền sang decoder nhằm tái tạo và phân loại ảnh ở cấp độ điểm ảnh. Ngoài ra, nghiên cứu còn sử dụng phương pháp PCA để giảm chiều dữ liệu trước khi đưa vào mạng nhằm giảm độ dư thừa giữa các dải phổ và tăng hiệu quả tính toán.

Để đánh giá hiệu quả của mô hình, nhóm nghiên cứu tiến hành thử nghiệm trên ba bộ dữ liệu siêu phổ nổi tiếng gồm Indian Pines, Pavia University và Houston-2018. Kết quả cho thấy Tri-3DUNet đạt độ chính xác tổng thể (Overall Accuracy – OA) rất cao: 98,92% trên Indian Pines, 99,75% trên Pavia University và 99,88% trên Houston-2018. Đồng thời, mô hình cũng cho thấy độ ổn định cao thông qua giá trị độ lệch chuẩn thấp hơn so với nhiều phương pháp học sâu khác.

Nghiên cứu cũng thực hiện phân tích so sánh với nhiều mô hình hiện đại như 3DCNN, HybridSN, 3DCDCN, HyperUNet và CEU-Net. Kết quả chứng minh Tri-3DUNet cho hiệu năng vượt trội cả về độ chính xác lẫn khả năng biểu diễn đặc trưng phức tạp của dữ liệu siêu phổ. Đặc biệt, việc tích hợp attention mechanism giúp cải thiện rõ rệt chất lượng phân loại so với phiên bản không sử dụng attention.

Bên cạnh ưu điểm về độ chính xác, nghiên cứu cũng chỉ ra rằng Tri-3DUNet đòi hỏi tài nguyên tính toán lớn hơn các mô hình truyền thống do số lượng tham số cao và thời gian huấn luyện dài hơn. Tuy nhiên, nhóm tác giả cho rằng sự gia tăng độ phức tạp này là cần thiết để giải quyết các bài toán đặc thù của ảnh siêu phổ như biến thiên phổ, mất cân bằng lớp và quan hệ phi tuyến giữa các kênh dữ liệu.

Có thể thấy, nghiên cứu về Tri-3DUNet phản ánh xu hướng phát triển mới trong lĩnh vực xử lý ảnh viễn thám, đó là kết hợp các mô hình học sâu đa nhánh với cơ chế attention nhằm nâng cao khả năng khai thác dữ liệu có chiều cao. Với khả năng phân loại chính xác dữ liệu siêu phổ, các mô hình như Tri-3DUNet có tiềm năng ứng dụng rộng rãi trong giám sát rừng, nông nghiệp chính xác, quản lý đất ngập nước, phát hiện biến động môi trường và giám sát tài nguyên thiên nhiên.

Trong bối cảnh ngành viễn thám đang chuyển dịch mạnh sang khai thác trí tuệ nhân tạo và dữ liệu lớn, các nghiên cứu như Tri-3DUNet cho thấy tiềm năng to lớn của học sâu trong nâng cao chất lượng phân tích ảnh vệ tinh. Đây cũng là hướng nghiên cứu quan trọng góp phần thúc đẩy các ứng dụng viễn thám thông minh phục vụ phát triển bền vững và quản lý tài nguyên hiệu quả trong tương lai.

Tài liệu tham khảo

Ashraf, M., Abbas, T., Iqbal, S., Sayyed, A., Asghar, M.N., & Alaulamie, A. (2025). Tri branch attention enhanced 3DUNet for remote sensing based hyperspectral image classification. Scientific Reports, 15, 45476. Springer Nature. DOI: https://doi.org/10.1038/s41598-025-29357-9

Tổng thuật nghiên cứu về mô hình Tri-3DUNet trong phân loại ảnh siêu phổ viễn thám

Giám sát biến động rừng cao su bằng dữ liệu viễn thám đa nguồn: Nghiên cứu trường hợp đảo Hải Nam, Trung Quốc

Ứng dụng công nghệ viễn thám trong giám sát mực nước hồ chứa trên lưu vực sông Hồng và sông Mê Công

Nâng tầm công nghệ viễn thám Việt Nam: Vai trò hợp tác quốc tế và Phi dự án hợp tác Việt Nam - Italia trong giám sát môi trường và ứng phó biến đổi khí hậu