Phương pháp mới khử nhiễu ảnh siêu phổ bằng mạng học sâu QRSAN

Ảnh siêu phổ (Hyperspectral Image – HSI) là một trong những nguồn dữ liệu quan trọng của công nghệ viễn thám hiện đại nhờ khả năng ghi nhận đồng thời thông tin không gian và phổ với hàng trăm kênh phổ liên tục. Nhờ đó, ảnh siêu phổ cho phép nhận dạng vật chất, phân loại lớp phủ bề mặt và phát hiện biến động với độ chính xác cao. Công nghệ này hiện được ứng dụng rộng rãi trong giám sát tài nguyên môi trường, nông nghiệp thông minh, y học, an ninh quốc phòng và kiểm tra chất lượng thực phẩm. Tuy nhiên, trong quá trình thu nhận dữ liệu, ảnh siêu phổ thường bị ảnh hưởng bởi nhiều loại nhiễu như nhiễu Gaussian, nhiễu sọc (stripe noise), nhiễu đường chết (dead-line noise), nhiễu xung và các sai lệch do điều kiện khí quyển hoặc cảm biến gây ra. Những loại nhiễu này làm suy giảm đáng kể chất lượng ảnh và ảnh hưởng trực tiếp đến các bài toán xử lý sau như phân loại, phát hiện mục tiêu hay giám sát biến động.

Trong bối cảnh đó, nhóm tác giả Yanhua Xiao, Huayan Zhou, Wenfeng Li, Long Yang và Ke Wang đã công bố nghiên cứu “Hyperspectral Image Denoising via Quasi-Recursive Spectral Attention and Cross-Layer Feature Fusion” trên tạp chí Sensors năm 2025. Nghiên cứu đề xuất một kiến trúc học sâu mới mang tên Quasi-Recursive Spectral Attention Network (QRSAN), hướng tới nâng cao hiệu quả khử nhiễu ảnh siêu phổ trong khi vẫn bảo toàn tốt cấu trúc không gian và tính nhất quán phổ.

Các phương pháp khử nhiễu ảnh siêu phổ truyền thống thường dựa trên mô hình toán học và các giả định tiên nghiệm như tính thưa (sparsity), tính tương đồng phi cục bộ (non-local similarity), biến phân toàn phần (total variation) hay đặc tính hạng thấp (low-rank). Những phương pháp này có ưu điểm về tính giải thích vật lý nhưng thường đòi hỏi tính toán lặp phức tạp và khả năng thích nghi hạn chế với các kiểu nhiễu thực tế đa dạng. Những năm gần đây, các mô hình học sâu, đặc biệt là mạng tích chập CNN và Transformer, đã cho thấy tiềm năng lớn trong xử lý ảnh siêu phổ. Tuy nhiên, CNN bị giới hạn bởi trường cảm thụ cục bộ, trong khi Transformer lại có chi phí tính toán rất cao đối với dữ liệu kích thước lớn và dễ bị ảnh hưởng bởi nhiễu trong cơ chế attention toàn cục.

Để giải quyết các hạn chế trên, nhóm nghiên cứu đã phát triển QRSAN với mục tiêu khai thác đồng thời mối quan hệ không gian – phổ của dữ liệu ảnh siêu phổ nhưng vẫn duy trì hiệu quả tính toán. Kiến trúc tổng thể của mạng được xây dựng theo dạng encoder–decoder bất đối xứng gồm nhiều khối Quasi-Recursive Attention Unit (QRAU), kết hợp với cơ chế kết nối chéo đa tầng nhằm bảo toàn chi tiết cấu trúc ảnh. Hình minh họa kiến trúc mạng trên trang 4 của bài báo cho thấy dữ liệu đầu vào được truyền qua nhiều tầng trích xuất đặc trưng, sau đó được hợp nhất bằng các kết nối skip connection theo kiểu ghép kênh (channel-wise concatenation) kết hợp khối chuyển tiếp (Transition Block).

Điểm nổi bật nhất của nghiên cứu nằm ở thiết kế khối QRAU. Khối này gồm ba thành phần chính: mô hình hóa đặc trưng không gian cục bộ, cơ chế quasi-recursive spectral pooling và attention đa đầu theo chiều phổ. Trong giai đoạn đầu, mạng sử dụng các phép tích chập 2D độc lập cho từng dải phổ để trích xuất đặc trưng không gian mà không làm trộn lẫn thông tin phổ. Sau đó, cơ chế quasi-recursive pooling được áp dụng để khai thác sự phụ thuộc liên tiếp giữa các dải phổ thông qua một cơ chế cổng điều khiển tương tự mạng hồi tiếp nhưng có chi phí tính toán thấp hơn.

Tiếp theo, mô-đun spectral multi-head attention được đưa vào nhằm mô hình hóa các mối quan hệ phổ dài hạn giữa các dải phổ khác nhau. Thay vì chỉ khai thác thông tin cục bộ như CNN truyền thống, cơ chế attention cho phép mạng xác định các dải phổ quan trọng và tăng cường trọng số cho các đặc trưng hữu ích trong quá trình tái tạo ảnh. Điều này đặc biệt quan trọng trong trường hợp nhiễu có tính phụ thuộc phổ cao hoặc tồn tại đồng thời trên nhiều dải phổ.

Ngoài QRAU, nhóm nghiên cứu còn đề xuất chiến lược kết nối chéo đa tầng kết hợp khối Transition Block nhằm tăng cường truyền dẫn đặc trưng giữa các tầng mã hóa và giải mã. Theo mô tả trong bài báo, khối này sử dụng các lớp tích chập 1×1 và 3×3 cùng với Batch Normalization và hàm kích hoạt ReLU để hợp nhất thông tin không gian – phổ ở nhiều mức độ khác nhau. Thiết kế này giúp giảm hiện tượng mất chi tiết ảnh trong quá trình downsampling và cải thiện tính ổn định của quá trình huấn luyện mạng.

Để đánh giá hiệu quả của QRSAN, nhóm tác giả đã tiến hành thực nghiệm trên nhiều bộ dữ liệu ảnh siêu phổ mô phỏng và thực tế như ICVL, Urban và Realistic dataset. Các phương pháp được dùng để so sánh gồm cả mô hình truyền thống như BM4D, NGMeet, LRTFL0 và các mô hình học sâu hiện đại như QRNN3D, T3SC, MAC-Net và SST.

Kết quả thực nghiệm cho thấy QRSAN đạt hiệu năng vượt trội trên hầu hết các chỉ số đánh giá như PSNR, SSIM và SAM trong nhiều mức nhiễu khác nhau. Với trường hợp nhiễu Gaussian mức σ = 50, mô hình đạt PSNR 40.61 dB và SSIM 0.9572, cao hơn các phương pháp đối sánh. Đối với các kịch bản nhiễu hỗn hợp phức tạp gồm nhiễu Gaussian, stripe, deadline và impulse, QRSAN tiếp tục cho thấy khả năng khử nhiễu mạnh trong khi vẫn giữ được tính liên tục phổ và chi tiết không gian. Các hình minh họa trong bài báo cho thấy ảnh sau khử nhiễu có độ sắc nét và độ trung thực phổ cao hơn rõ rệt so với các phương pháp khác.

Trên bộ dữ liệu thực Urban và Realistic, QRSAN cũng thể hiện khả năng thích nghi tốt với điều kiện dữ liệu thực tế. Đường cong phản xạ phổ được phục hồi gần với dữ liệu gốc hơn, chứng tỏ mô hình không chỉ loại bỏ nhiễu mà còn bảo tồn chính xác thông tin phổ – yếu tố cốt lõi trong xử lý ảnh siêu phổ. Các thí nghiệm phân tích thành phần (ablation study) cũng xác nhận vai trò quan trọng của từng thành phần trong QRSAN, đặc biệt là attention phổ đa đầu và cơ chế quasi-recursive pooling.

Mặc dù đạt hiệu quả cao, nghiên cứu cũng thừa nhận một số hạn chế như khả năng tổng quát hóa với các loại cảm biến khác nhau hoặc trong điều kiện nhiễu cực mạnh vẫn cần được kiểm chứng thêm. Ngoài ra, mô hình học sâu đòi hỏi dữ liệu huấn luyện lớn và chi phí tính toán tương đối cao. Tuy vậy, nhóm tác giả nhận định kiến trúc QRSAN có tiềm năng mở rộng sang các bài toán khác như phân loại ảnh siêu phổ, phát hiện bất thường, phân giải siêu cao hay trộn phổ (spectral unmixing).

Có thể thấy rằng nghiên cứu này là một đóng góp đáng chú ý trong lĩnh vực xử lý ảnh siêu phổ bằng học sâu. Việc kết hợp cơ chế quasi-recursive và spectral attention đã mở ra hướng tiếp cận mới trong khai thác đồng thời thông tin không gian và phổ của ảnh viễn thám. Mô hình QRSAN không chỉ nâng cao chất lượng khử nhiễu mà còn bảo đảm tính trung thực phổ – yêu cầu đặc biệt quan trọng đối với các ứng dụng viễn thám chính xác cao hiện nay.

Tài liệu tham khảo:
Xiao, Y.; Zhou, H.; Li, W.; Yang, L.; Wang, K. Hyperspectral Image Denoising via Quasi-Recursive Spectral Attention and Cross-Layer Feature Fusion. Sensors, 2025, 25, 6955. https://doi.org/10.3390/s25226955

Phương pháp mới khử nhiễu ảnh siêu phổ bằng mạng học sâu QRSAN

Mô hình nền tảng cho dữ liệu địa không gian và quan sát trái đất: kỷ nguyên mới trong hiểu biết về trái đất

Tích hợp dữ liệu SMAP và CYGNSS trong giám sát độ ẩm đất và hạn hán nông nghiệp tại Nghệ An: Tiềm năng mở rộng ứng dụng cho Việt Nam

Ứng dụng viễn thám trong ước tính độ ẩm đất phục vụ nông nghiệp: Xu hướng công nghệ và cơ hội triển khai tại Việt Nam