Nhận dạng tiếng nói dựa trên Transformer cho nhiều nhóm người dùng khác nhau

( 0 đánh giá )
Miễn phí

Mục tiêu:

  + Giảm suy giảm hiệu suất khi ASR gặp giọng nói khác biệt so với dữ liệu huấn luyện chuẩn.

  + Tạo hệ thống thống nhất thay vì phải xây dựng riêng cho từng nhóm người dùng.

  • Phương pháp:
  •   + Domain-adaptive training: tinh chỉnh mô hình Transformer với dữ liệu từ miền/ngữ cảnh mục tiêu.
  •   + Speaker-adaptive training: tinh chỉnh theo đặc điểm giọng nói của người dùng cụ thể.
  •   + Voice conversion-based data augmentation: tạo dữ liệu huấn luyện bổ sung bằng cách chuyển đổi giọng nói sang phong cách của người dùng mục tiêu.
  • - Kết quả kỳ vọng:
  •   + Cải thiện độ chính xác nhận dạng cho nhiều nhóm người dùng khác nhau.
  •   + Giảm khoảng cách hiệu suất giữa người nói chuẩn và người nói có đặc điểm giọng khác biệt.
  • - Ứng dụng:
  •   + Hỗ trợ người khuyết tật về giọng nói hoặc phát âm.
  •   + Nâng cao trải nghiệm ASR trong môi trường đa dạng về ngôn ngữ và giọng nói.