Sensor Transfer: Học tăng cường hình ảnh dựa trên hiệu ứng cảm biến để thích nghi miền từ dữ liệu tổng hợp sang thực tế

( 0 đánh giá )
Miễn phí

Dữ liệu tổng hợp: GTA Sim10k gồm 10.000 ảnh từ game GTA V, có độ chân thực cao, đa dạng thời gian và thời tiết.

  • Dữ liệu thực: KITTI (7481 ảnh) và Cityscapes (2975 ảnh) với phong cách hình ảnh khác biệt rõ rệt.
  • - Các hiệu ứng cảm biến được mô hình hóa gồm: quang sai sắc học (chromatic aberration), mờ Gaussian, độ phơi sáng, nhiễu Poisson-Gaussian, và dịch màu trong không gian LAB.
  • - Mỗi hiệu ứng có một mạng sinh tham số riêng (parameter generator), nhận đầu vào là vector nhiễu ngẫu nhiên và sinh ra tham số tăng cường.
  • - Quá trình huấn luyện sử dụng style loss giữa ảnh thực và ảnh tổng hợp đã tăng cường, tính trên 10 lớp đầu của mạng VGG-16.
  • - So sánh với các phương pháp dịch ảnh–ảnh như CycleGAN, UNIT, MUNIT cho thấy Sensor Transfer giữ được cấu trúc không gian ảnh và cải thiện độ chính xác phát hiện vật thể.
  • - Kết quả phát hiện xe hơi bằng Faster R-CNN cho thấy độ chính xác tăng từ 30.13% lên 35.48% khi kiểm tra trên Cityscapes, và từ 51.01% lên 52.67% khi kiểm tra trên KITTI.
  • - Phương pháp cho phép huấn luyện với tập dữ liệu nhỏ hơn nhưng vẫn đạt hiệu quả cao hơn so với tăng cường ngẫu nhiên.