Chiến lược học tăng cường sâu cho UAV hạ cánh tự động trên nền tảng di chuyển

( 0 đánh giá )
Miễn phí

Framework mô phỏng: xây dựng hệ thống học tăng cường dựa trên Gazebo, RotorS, Aerostack và ROS. Giao tiếp giữa agent và môi trường qua ROS hoặc shared memory khi cần kiểm soát thời gian mô phỏng.

  • Thiết kế bài toán học tăng cường:
  •   + Trạng thái: vị trí và vận tốc của UAV so với nền tảng di chuyển (MP), cùng trạng thái cảm biến áp lực (để xác định đã hạ cánh).
  •   + Hành động: vận tốc tham chiếu theo trục x và y (trục z được điều khiển cố định).
  •   + Hàm thưởng: kết hợp giữa khoảng cách, vận tốc, độ mượt của hành động và trạng thái cảm biến áp lực. Sử dụng shaping để tăng tốc học.
  • - Huấn luyện: dùng DDPG với mạng actor–critic, huấn luyện 4500 tập (~720k bước), mỗi tập tối đa 900 bước. Agent học trong môi trường mô phỏng với dữ liệu ground truth, sau đó kiểm tra với dữ liệu nhiễu Gaussian.
  • - Thử nghiệm:
  •   + Mô phỏng: nền tảng di chuyển theo quỹ đạo tuyến tính hoặc ngẫu nhiên, tốc độ tối đa 1.2 m/s. Agent vẫn hạ cánh chính xác với tỷ lệ thành công cao (~90% với tốc độ thấp, ~73% với tốc độ cao).
  •   + Thực tế: dùng UAV Parrot Bebop, nền tảng di chuyển tự chế, dữ liệu vị trí từ hệ thống Motion Capture. Agent huấn luyện trong mô phỏng vẫn hoạt động tốt trong bay thực, không cần tinh chỉnh lại.
  • - Kết luận: DDPG có thể học điều khiển UAV hạ cánh trong môi trường liên tục, tổng quát tốt, chuyển từ mô phỏng sang thực tế hiệu quả. Framework có thể mở rộng cho các thuật toán DRL khác hoặc học từ ảnh pixel.