Chiến lược học tăng cường sâu cho hạ cánh tự động UAV trên nền tảng di chuyển

( 0 đánh giá )
Miễn phí

DDPG là thuật toán học tăng cường sâu dành cho không gian trạng thái và hành động liên tục, dựa trên mô hình actor-critic.

  • Khung mô phỏng sử dụng Gazebo, RotorS và Aerostack để mô phỏng UAV và nền tảng di chuyển, tích hợp với agent học tăng cường qua giao tiếp ROS và bộ nhớ chia sẻ.
  • - Trạng thái gồm vị trí và vận tốc tương đối giữa UAV và nền tảng, cùng với cảm biến áp lực để xác định trạng thái tiếp đất.
  • - Hành động là tốc độ tham chiếu theo trục x và y, trong khi trục z được điều khiển cố định để đơn giản hóa bài toán.
  • - Hàm thưởng được thiết kế để khuyến khích UAV giảm khoảng cách và vận tốc tương đối, đồng thời tạo ra hành động mượt mà.
  • - Quá trình huấn luyện gồm 4500 tập, mỗi tập tối đa 900 bước, sử dụng mạng nơ-ron với hai lớp ẩn (200 và 100 nút), hàm kích hoạt ReLU và đầu ra tanh.
  • - Kết quả mô phỏng cho thấy UAV có thể hạ cánh chính xác và ổn định trên nền tảng di chuyển với tốc độ khác nhau, kể cả khi có nhiễu Gaussian.
  • - Thử nghiệm thực tế sử dụng UAV Parrot Bebop và hệ thống định vị OptiTrack cho thấy mô hình huấn luyện trong mô phỏng có thể chuyển giao hiệu quả sang môi trường thực.
  • - Tài liệu khẳng định đây là nghiên cứu đầu tiên áp dụng DDPG cho bài toán hạ cánh UAV trên nền tảng di chuyển, huấn luyện trong mô phỏng và kiểm chứng bằng bay thực tế.