Self-training and Pre-training are Complementary for Speech Recognition

-Abstract-

Self-training과 Pre-training은 음성 인식을 보완함.

레이블이 없는 데이터를 사용하여 음성 인식 시스템을 개선하기 위한 효과적인 접근 방식으로

Self-training과 감독되지 않은 pre-training이 등장.

그러나 그들이 유사한 패턴을 배우는지 또는 효과적으로 결합 될 수 있는지는 명확하지 않다.

본 논문은 wav2vec 2.0을 사용한 pseudo-labeling과 pre-training이 다양한 라벨링 된 데이터 설정에서

상호 보완적임을 보여줌.

Libri-light의 라벨링 된 데이터 10분과 LibriVox의 라벨링되지 않은 데이터 53k 시간을 사용하여

1 년 전 데이터 Librispeech의 깨끗한 테스트 세트와 기타 테스트 세트에서 3.0 % / 5.2 %의 WER를 달성.

Discriminative Multi-modality Speech Recognition (0)	2021.06.23
End-to-end audio-visual speech recognition with conformers (ICASSP 2021) (0)	2021.06.21
Fusing information streams in end-to-end audio-visual speech recognition (0)	2021.06.15
Deep Audio-Visual Speech Recognition (0)	2021.06.07
ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context (0)	2021.04.14

Way maker