Rover-IRL: Học tăng cường ngược với Mạng lặp giá trị mềm cho lập kế hoạch đường đi của tàu tự hành hành tinh

( 0 đánh giá )
Miễn phí

Phương pháp kết hợp mạng tích chập sâu (CNN) để trích xuất bản đồ phần thưởng từ dữ liệu đầu vào (ảnh vệ tinh, bản đồ địa hình, vị trí đích) và mô-đun lặp giá trị với chính sách hành động “mềm” (xác suất trên tất cả hành động thay vì chọn hành động tối ưu duy nhất). Thiết kế này cải thiện khả năng lan truyền gradient khi huấn luyện, đặc biệt ở giai đoạn đầu. Thuật toán được đánh giá trên hai bộ dữ liệu: (1) môi trường lưới 32×32 đơn giản để kiểm chứng và (2) bộ dữ liệu giả lập từ công cụ lập kế hoạch sứ mệnh rover của NASA cho khu vực miệng hố Jezero trên Sao Hỏa, sử dụng ảnh vệ tinh, nhãn phân loại địa hình và đường đi tối ưu của công cụ chuyên gia. Kết quả: SVIN đạt độ chính xác cao hơn so với VIN tiêu chuẩn (89% so với ~75% trong môi trường lưới), và tái tạo được đường đi hợp lý, tránh các vùng nguy hiểm trên dữ liệu Jezero; đôi khi còn đề xuất quỹ đạo tốt hơn dữ liệu huấn luyện nếu nhãn địa hình thô. Ứng dụng tiềm năng gồm hỗ trợ lập kế hoạch đường dài dựa trên dữ liệu quỹ đạo kết hợp bộ lập kế hoạch cục bộ an toàn, và đánh giá giá trị vị trí hạ cánh trước khi triển khai. Tác giả cũng so sánh với phương pháp IRL entropy tối đa, chỉ ra khác biệt ở cách chuẩn hóa chính sách “mềm” theo hành động cục bộ thay vì toàn bộ quỹ đạo.