Sử dụng primitive chuyển động xác suất trong robot

( 0 đánh giá )
Miễn phí

Động cơ: Các MP truyền thống chỉ hỗ trợ một số thuộc tính (khái quát hóa mục tiêu, điều chế thời gian, tuần tự/ghép tác vụ…), thiếu khung thống nhất và mô tả độ biến thiên tối ưu cho hệ động lực ngẫu nhiên. ProMP dùng phân bố quỹ đạo để giải quyết tất cả trong cách tiếp cận nguyên tắc.

  • Biểu diễn: Quỹ đạo chung q(t) biểu diễn bằng tổ hợp hàm cơ sở (Gaussian hoặc Von-Mises), tham số w có phân bố Gaussian p(w|μ,Σ). Phân bố quỹ đạo p(τ) thu được bằng tích phân w. Hỗ trợ nhiều bậc tự do và nắm bắt tương quan khớp.
  • - Học từ bắt chước: Với chuyển động rời rạc, ước lượng w cho từng mẫu bằng hồi quy ridge hoặc thêm điều chuẩn jerk để làm mượt, sau đó fit Gaussian. Với chuyển động tuần hoàn, dùng EM trên các đoạn ngắn, cơ sở tuần hoàn để cho phép dữ liệu thiếu/multiple period.
  • - Thao tác xác suất:
  •   + Conditioning: Điều chỉnh phân bố để đi qua điểm trung gian/vị trí–vận tốc cuối mới, tự suy diễn các khớp còn lại.
  •   + Thích ứng tham số tác vụ: Học ánh xạ tuyến tính từ tham số ngoài (ví dụ góc đánh bóng) → μ_w.
  •   + Kết hợp/Blend: Tích phân bố nhiều MP với hệ số kích hoạt (toàn phần hoặc biến thiên theo thời gian) để cùng thỏa nhiều ràng buộc hoặc chuyển đổi mượt giữa kỹ năng.
  • - Điều chế thời gian: Dùng biến pha z∈[0,1], tốc độ pha tùy chỉnh trong lúc chạy.
  • - Điều khiển: Suy ra bộ điều khiển phản hồi ngẫu nhiên (K_t, k_t, Σ_u) để khớp chính xác μ(t), Σ(t), và tương quan giữa thời điểm, từ phương trình Riccati liên tục và matching moment. Cho phép tái tạo biến thiên mong muốn và độ mềm dẻo (compliance) tại các vùng có phương sai lớn, đồng thời chính xác tại các điểm quan trọng.
  • - Thử nghiệm:
  •   + Bài toán tay máy phẳng 7 khớp với điểm qua đường: ProMP khớp tương quan khớp, ghép 2 tác vụ đạt cả 2 điểm mốc; cần ~10–20 demo để hội tụ chi phí.
  •   + Con lắc kép phi tuyến: Điều khiển ProMP với tuyến tính hóa tại trạng thái hiện tại tái tạo phân bố học được dù thay đổi động lực mạnh.
  •   + Chuyển động tuần hoàn thực: chơi Astrojax, lắc maracas (điều chế tốc độ, blend hai kiểu lắc).
  •   + Bắn khúc côn cầu: học 2 MP (góc, khoảng cách), union/ghép/điều kiện hóa góc; ghép cho phát bóng ở giữa–khoảng cách vừa.
  •   + Đánh bóng bàn mô phỏng: so với DMP, ProMP giữ hình dạng quỹ đạo, dễ điều khiển hơn khi có nhiễu quan sát và trễ, tỉ lệ thành công cao hơn.
  • - Kết luận: ProMP cung cấp khuôn khổ nguyên tắc, hỗ trợ đầy đủ các thuộc tính MP mong muốn (khái quát, điều chế thời gian, ghép/blend, điều khiển tối ưu gần) trong một biểu diễn duy nhất; thích hợp cho kỹ năng ghép mô-đun, dễ học từ bắt chước và mở rộng bằng RL.