Trợ thính thông minh tăng cường nhận biết tiếng ồn quan trọng bằng mạng nơ-ron sâu

( 0 đánh giá )
Miễn phí

Bối cảnh: Người khiếm thính khó phân biệt tiếng nói và tiếng ồn, đặc biệt trong môi trường ồn; tiếng ồn quan trọng nếu bị loại bỏ có thể gây nguy hiểm.

  • Thuật toán nền tảng: DBN với giai đoạn tiền huấn luyện RBM và tinh chỉnh FNN, kết hợp dropout và noise-aware training.
  • - Ba phương án:
  •   + Hệ thống 1: Huấn luyện lại với đầu ra gồm tiếng nói + tiếng ồn quan trọng; mạng vừa tăng cường vừa phân loại tiếng ồn.
  •   + Hệ thống 2: Mạng tăng cường tiếng nói huấn luyện trên tiếng nói thuần + bộ phân loại CNN nhận dạng tiếng ồn quan trọng, điều chỉnh mức tiếng ồn giữ lại.
  •   + Hệ thống 3: Hai mạng tăng cường riêng biệt cho tiếng nói và tiếng ồn quan trọng, sau đó cộng kết quả.
  • - Dữ liệu:
  •   + Tiếng nói: 2800 mẫu từ Voice Bank corpus.
  •   + Tiếng ồn quan trọng: 6 loại (còi xe, còi báo động, trẻ khóc, báo cháy, bước chân, gõ cửa) từ ESC-50, UrbanSound8K, Donate-a-Cry.
  •   + Tiếng ồn không mong muốn: 119 loại cho huấn luyện, 15 loại chưa thấy cho kiểm thử.
  • - Đánh giá:
  •   + Hệ thống 1: Giữ được tiếng ồn quan trọng nhưng giảm chất lượng tiếng nói khi số loại tiếng ồn quan trọng tăng; PESQ, STOI giảm nhẹ; LSD tăng.
  •   + Hệ thống 2: Phân loại tốt khi chỉ có một loại tiếng ồn; không tách được khi tiếng nói kèm nhiều loại tiếng ồn.
  •   + Hệ thống 3: Giữ được tiếng ồn quan trọng ngay cả khi có nhiều loại tiếng ồn; chất lượng tiếng nói cao hơn nhưng phức tạp nhất.
  • - Chỉ số đo: PESQ (0.5–4.5), STOI (0–1), LSD (dB).
  • - Kết luận: Cả ba hệ thống đều đạt mục tiêu nhận biết tiếng ồn quan trọng; lựa chọn tùy theo yêu cầu về độ phức tạp, hiệu năng và tính linh hoạt.