Name: Phát triển máy trợ thính mới sử dụng công nghệ nhận dạng hình ảnh
SKU: WW-2443-YXERF
Availability: InStock

Phát triển máy trợ thính mới sử dụng công nghệ nhận dạng hình ảnh

( 0 đánh giá )

Miễn phí

Phần cứng:

+ Module thu âm: 2 micro, mạch khuếch đại, lọc thông dải 150–1000 Hz, ADC/DAC 12-bit, USB, tai nghe.

+ Webcam góc rộng 120°, 12 MP, 30 fps.

+ Kích thước module: 45×30×5 mm.

Phần mềm:
+ Chạy trên tablet Windows 10, giao diện GUI, xử lý ảnh bằng OpenCV, luồng nhận/truyền âm thanh qua USB.
+ Nhận diện khuôn mặt/đôi mắt, cho phép chọn người nói, tính khoảng cách & góc, suy ra TDOA.
+ Bộ lọc ASEF dùng thuật toán LMS (leakage 0,0001, learning rate tối ưu ~0,4) để tăng SNR.
- Thuật toán:
+ Ước lượng khoảng cách dọc (Dvert) từ chiều cao mắt trên ảnh, khoảng cách ngang (Dhor) từ độ rộng mắt, tính góc và TDOA.
+ Dùng TDOA để căn chỉnh pha tín hiệu giữa 2 micro, sau đó lọc thích nghi để loại bỏ nhiễu.
- Kết quả:
+ Sai số TDOA < 1,25×10⁻⁴ ms khi khoảng cách < 4 m.
+ Giảm nhiễu hiệu quả ở nhiều mức SNR, kể cả nhiễu không tĩnh và môi trường phức tạp (lớp học, bệnh viện, gia đình).
+ Hạn chế: hiệu quả giảm khi góc quá lớn hoặc người nói quay mặt (không thấy cả hai mắt).
- So sánh:
+ Chính xác hơn phương pháp cross-correlation trong môi trường nhiều nhiễu và vang.
+ Cho phép chọn thủ công người nói, khác với các phương pháp beamforming hoặc phân loại môi trường.
+ Nhược điểm: phụ thuộc độ sáng môi trường và góc nhìn.

Mã tài liệu: WW-2443-YXERF

Tải tài liệu Xem trước

Bài báo đề xuất máy trợ thính mới cho phép người dùng chọn thủ công người muốn nghe trong môi trường nhiều tiếng ồn. Khác với beamforming truyền thống dùng tương quan chéo để ước lượng TDOA, hệ thống sử dụng camera góc rộng và nhận dạng khuôn mặt để xác định vị trí người nói, từ đó tính TDOA chính xác hơn. Kết hợp bộ lọc ASEF để tăng cường giọng nói mục tiêu và giảm nhiễu nền. Thử nghiệm cho thấy sai số tuyệt đối TDOA < 1,25×10⁻⁴ ms khi khoảng cách < 4 m, cải thiện rõ rệt chất lượng tiếng nói trong nhiều môi trường nhiễu.