Học tăng cường nghịch đảo với mạng lặp giá trị mềm cho quy hoạch đường đi của robot thám hiểm hành tinh

( 0 đánh giá )
Miễn phí

Phương pháp SVIN được phát triển từ mạng lặp giá trị (VIN), sử dụng mạng nơ-ron tích chập để mô phỏng thuật toán lặp giá trị một cách khả vi, cho phép huấn luyện trực tiếp từ dữ liệu đường đi mẫu. SVIN cải tiến bằng cách thay thế chính sách hành động tối ưu bằng chính sách mềm (soft policy), giúp lan truyền gradient hiệu quả hơn trong quá trình huấn luyện. Tài liệu trình bày hai bộ dữ liệu thử nghiệm: một môi trường lưới đơn giản và một tập dữ liệu thực tế từ ảnh vệ tinh khu vực miệng hố Jezero trên sao Hỏa. Kết quả cho thấy SVIN đạt độ chính xác cao hơn so với VIN truyền thống trong việc tái tạo đường đi mẫu, đồng thời tạo ra bản đồ giá trị có thể tích hợp với các thuật toán điều hướng cục bộ để lập kế hoạch dài hạn. Phương pháp này có tiềm năng ứng dụng trong đánh giá điểm hạ cánh, lập kế hoạch nhiệm vụ và điều hướng tự động cho các robot thám hiểm hành tinh.