Nghiên cứu DFE-DETR: Giải pháp tăng cường phát hiện mục tiêu nhỏ trên ảnh viễn thám và khả năng ứng dụng tại Việt Nam

Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của công nghệ viễn thám và thiết bị bay không người lái (UAV), nhu cầu phát hiện mục tiêu nhỏ trên ảnh hàng không và ảnh vệ tinh ngày càng trở nên quan trọng trong các lĩnh vực như giám sát giao thông, quản lý đô thị, ứng phó thiên tai, quốc phòng và nông nghiệp thông minh. Tuy nhiên, các đối tượng trên ảnh viễn thám thường có kích thước rất nhỏ, nền ảnh phức tạp và chịu ảnh hưởng mạnh bởi điều kiện chụp như độ cao bay, góc chụp hoặc thời tiết. Điều này khiến việc phát hiện chính xác mục tiêu trở thành một thách thức lớn đối với các mô hình học sâu hiện nay.

Một nghiên cứu mới công bố trên tạp chí Scientific Reports năm 2025 đã đề xuất mô hình DFE-DETR (Dynamic Feature Enhancement DETR), nhằm nâng cao khả năng phát hiện mục tiêu nhỏ trên ảnh viễn thám trong khi vẫn đảm bảo tốc độ xử lý thời gian thực. Đây được xem là một hướng tiếp cận đáng chú ý trong xu thế kết hợp giữa kiến trúc Transformer và các cơ chế tăng cường đặc trưng động cho bài toán viễn thám.

Kiến trúc và nguyên lý hoạt động của DFE-DETR

DFE-DETR được phát triển dựa trên kiến trúc RT-DETR – một biến thể của DETR (Detection Transformer) tối ưu cho xử lý thời gian thực. Mô hình sử dụng ResNet-18 làm backbone để trích xuất đặc trưng ảnh, sau đó tích hợp ba mô-đun cốt lõi nhằm cải thiện khả năng nhận dạng mục tiêu nhỏ và phức tạp trên ảnh UAV.

Thành phần đầu tiên là SAEM (Sparse Attention Enhancement Module) – mô-đun chú ý thưa động. SAEM sử dụng cơ chế lựa chọn Top-k để giữ lại các vùng thông tin quan trọng nhất trong ảnh và loại bỏ các token không liên quan, qua đó giảm đáng kể chi phí tính toán từ O(N²) xuống O(kN). Điều này giúp mô hình tập trung vào các vùng có khả năng chứa mục tiêu nhỏ như xe cộ, người đi bộ hoặc tàu thuyền trong bối cảnh nền phức tạp.

Thành phần thứ hai là MSCAEM (Multi-scale Convolutional Attention Enhancement Module), sử dụng các nhánh tích chập đa tỉ lệ với kernel dạng dải (strip convolution) để tăng khả năng nhận diện các đối tượng kéo dài như đường giao thông, cầu, tàu hoặc máy bay. Cơ chế này đặc biệt hiệu quả trong việc khai thác thông tin không gian ở nhiều kích thước khác nhau mà vẫn duy trì số lượng tham số thấp.

Thành phần thứ ba là DLKCM (Deformable Large Kernel Convolution Module), áp dụng tích chập biến dạng (deformable convolution) để tự động điều chỉnh vị trí lấy mẫu theo hình dạng thực tế của mục tiêu. Nhờ đó, mô hình có thể thích nghi với các đối tượng có hình dạng bất quy tắc hoặc thay đổi theo góc nhìn UAV, đồng thời mở rộng trường nhìn mà không cần tăng mạnh số lượng phép tính.

Kết quả thực nghiệm cho thấy DFE-DETR đạt hiệu năng rất cao trên nhiều bộ dữ liệu viễn thám phổ biến. Trên bộ dữ liệu VisDrone2019, mô hình đạt 47,34% mAP@0.5 với tốc độ xử lý 65,8 FPS chỉ với 23,6 triệu tham số. Trên bộ dữ liệu SIMD, mô hình đạt 82,79% mAP@0.5 và tốc độ 74,6 FPS. Đồng thời, nghiên cứu cũng chứng minh DFE-DETR vượt trội hơn nhiều mô hình YOLO và Transformer hiện có về sự cân bằng giữa độ chính xác và hiệu suất xử lý thời gian thực.

Ý nghĩa đối với lĩnh vực viễn thám

Điểm nổi bật của DFE-DETR là khả năng tối ưu cho các thiết bị biên (edge devices) như UAV hoặc hệ thống xử lý di động có tài nguyên tính toán hạn chế. Trong các hệ thống giám sát thời gian thực, việc duy trì tốc độ xử lý cao là yêu cầu bắt buộc, đặc biệt trong các tình huống như cứu hộ thiên tai, giám sát giao thông hoặc quốc phòng.

Ngoài ra, cơ chế chú ý động và tích chập biến dạng giúp mô hình thích ứng tốt với đặc thù ảnh viễn thám, nơi các mục tiêu thường có kích thước nhỏ, bị che khuất hoặc thay đổi mạnh về tỉ lệ theo độ cao chụp. Đây là điểm hạn chế mà nhiều mô hình CNN truyền thống hoặc YOLO đời cũ chưa giải quyết triệt để.

Điều kiện và khả năng áp dụng tại Việt Nam

Trong bối cảnh Việt Nam đang đẩy mạnh chuyển đổi số ngành tài nguyên môi trường và phát triển hạ tầng dữ liệu không gian địa lý quốc gia, các công nghệ như DFE-DETR có tiềm năng ứng dụng rất lớn.

Thứ nhất, trong lĩnh vực giám sát giao thông đô thị, mô hình có thể hỗ trợ phát hiện và theo dõi phương tiện trên ảnh UAV hoặc camera hàng không, phục vụ quản lý giao thông tại các đô thị lớn như Hà Nội và Thành phố Hồ Chí Minh. Khả năng phát hiện mục tiêu nhỏ và xử lý thời gian thực đặc biệt phù hợp với các hệ thống giám sát mật độ cao.

Thứ hai, trong lĩnh vực nông nghiệp và tài nguyên môi trường, DFE-DETR có thể được sử dụng để giám sát ao nuôi thủy sản, phát hiện tàu cá, kiểm kê phương tiện nông nghiệp hoặc nhận dạng công trình xây dựng trái phép từ ảnh UAV và ảnh vệ tinh độ phân giải cao. Điều này phù hợp với xu hướng ứng dụng AI kết hợp viễn thám trong quản lý đất đai và nông nghiệp thông minh tại Việt Nam.

Thứ ba, trong phòng chống thiên tai, mô hình có thể hỗ trợ phát hiện nhanh khu vực sạt lở, phương tiện cứu hộ, tàu thuyền hoặc các công trình bị ảnh hưởng sau bão lũ. Với ưu điểm xử lý nhanh trên thiết bị nhúng, hệ thống có thể triển khai trực tiếp trên UAV phục vụ khảo sát hiện trường mà không cần truyền toàn bộ dữ liệu về trung tâm xử lý.

Tuy nhiên, để triển khai hiệu quả tại Việt Nam, vẫn cần một số điều kiện kỹ thuật và dữ liệu:

Cần xây dựng bộ dữ liệu ảnh viễn thám chuyên biệt cho Việt Nam với các đặc trưng về địa hình, khí hậu và đối tượng đặc thù.
Cần hạ tầng GPU hoặc thiết bị edge AI phù hợp để triển khai thời gian thực.
Cần tích hợp dữ liệu từ UAV, ảnh vệ tinh và GIS để tăng hiệu quả ứng dụng thực tế.
Cần huấn luyện lại mô hình với dữ liệu địa phương nhằm cải thiện độ chính xác trong điều kiện cảnh quan và thời tiết Việt Nam.

Ngoài ra, nghiên cứu cũng cho thấy mô hình vẫn còn hạn chế trong việc nhận dạng các mục tiêu cực nhỏ hoặc bị che khuất mạnh như xe đạp hoặc phương tiện có mật độ dày đặc. Điều này cho thấy khi áp dụng tại Việt Nam, đặc biệt trong các khu vực đô thị đông đúc hoặc vùng nhiệt đới nhiều mây, cần kết hợp thêm các kỹ thuật tăng cường dữ liệu và học đa nguồn dữ liệu.

Kết luận

Nghiên cứu DFE-DETR là một hướng tiếp cận tiên tiến trong lĩnh vực phát hiện mục tiêu nhỏ trên ảnh viễn thám, kết hợp hiệu quả giữa Transformer, attention động và deformable convolution nhằm nâng cao cả độ chính xác lẫn tốc độ xử lý. Với khả năng hoạt động thời gian thực và kiến trúc tương đối nhẹ, mô hình có tiềm năng lớn trong các ứng dụng UAV, giám sát đô thị, giao thông, tài nguyên môi trường và ứng phó thiên tai tại Việt Nam.

Trong tương lai, nếu được kết hợp với dữ liệu viễn thám quốc gia và hạ tầng AI phù hợp, các mô hình như DFE-DETR có thể trở thành nền tảng quan trọng cho các hệ thống phân tích ảnh viễn thám thông minh phục vụ quản lý nhà nước và phát triển kinh tế số dựa trên dữ liệu không gian.

Wu, S., Yang, H., Liao, L., Song, C., Liu, Q., Fu, J., & Li, T. (2025). Dynamic small object feature enhancement and detection for remote sensing images. Scientific Reports, 15, 37225. https://doi.org/10.1038/s41598-025-21134-yTop of Form

Bottom of Form

Nghiên cứu DFE-DETR: Giải pháp tăng cường phát hiện mục tiêu nhỏ trên ảnh viễn thám và khả năng ứng dụng tại Việt Nam

Nâng cao năng lực ứng dụng dữ liệu radar vệ tinh SAR: Cục Viễn thám quốc gia tổ chức khóa đào tạo về chòm vệ tinh cosmo-skymed

Giám sát hư hỏng đê điều bằng ảnh viễn thám UAV và mô hình học sâu thời gian thực

Tổng thuật nghiên cứu ứng dụng học sâu trong phân loại lớp phủ bề mặt từ dữ liệu SAR và quang học đa nguồn