Học tri giác tầm xa bằng tự giám sát từ cảm biến tầm ngắn và dữ liệu quán tính

( 0 đánh giá )
Miễn phí

Bài báo xét tình huống robot di động có cảm biến tầm xa (ví dụ camera) và cảm biến tầm ngắn (ví dụ cảm biến tiệm cận) gắn cố định, cùng hệ thống quán tính/odometry. Ý tưởng: dữ liệu cảm biến tầm ngắn ở vị trí tương lai (đo khi robot di chuyển tới) đóng vai trò nhãn cho dữ liệu cảm biến tầm xa ghi nhận ở hiện tại. Xác định tập các “tư thế đích” trước robot; với mỗi ảnh camera tại thời điểm t, tìm trong quỹ đạo các thời điểm t' mà robot gần các tư thế đích đó, lấy giá trị cảm biến tầm ngắn làm nhãn (có thể thiếu một số nhãn nếu không đi qua đủ vị trí). Vấn đề trở thành phân loại nhị phân đa nhãn với nhãn thiếu, đầu vào là ảnh, đầu ra là chướng ngại tại nhiều khoảng cách/góc.

 

Hệ thống thử nghiệm trên robot Mighty Thymio với 5 cảm biến tiệm cận hồng ngoại phía trước (S1..S5) và webcam 720p. Định nghĩa 31 tư thế đích cách nhau 1 cm từ 0–30 cm. Bộ điều khiển thu thập dữ liệu tự động: tiến đến gần chướng ngại, quay và lùi về các hướng offset ±30°, ±15°, sau đó tiến thẳng để quét nhiều khoảng cách/điểm nhìn. Thu thập dữ liệu trong 10 môi trường trong nhà/ngoài trời (~90 phút), tạo ~50k mẫu; chia tập huấn luyện/kiểm tra theo môi trường để đánh giá khả năng khái quát.

 

Tiền xử lý: resize ảnh 80×64, chuẩn hóa, tăng cường dữ liệu (lật ảnh, đổi kênh màu, thêm nhiễu, gradient sáng tối). Mạng LeNet-like nhận ảnh RGB, xuất 155 nhãn (5 cảm biến × 31 khoảng cách), huấn luyện 15 epoch với ADAM, dùng loss có mặt nạ để bỏ qua nhãn thiếu. Đánh giá dùng AUC theo khoảng cách/cảm biến, cho thấy dự đoán tốt nhất ở 4–8 cm, giảm mạnh sau 28 cm (vật cản ra khỏi khung hình). Trình diễn tính tổng quát bằng kiểm thử trên robot khác (TurtleBot 2) và camera đeo hông người, không cần căn chỉnh cảm biến, vẫn nhận diện vật cản ổn định.

 

Bài báo cũng minh họa khả năng áp dụng rộng, thử nghiệm mô phỏng với Pioneer 3-AT và 3 camera nhìn nhiều hướng để dự đoán màu nền (sáng/tối) tại lưới 17×17 vị trí xung quanh, cho thấy mô hình học được cả với các vị trí ngoài tầm nhìn trực tiếp nhờ tương quan không gian của dữ liệu.