-Abstract-
Self-training과 Pre-training은 음성 인식을 보완함.
레이블이 없는 데이터를 사용하여 음성 인식 시스템을 개선하기 위한 효과적인 접근 방식으로
Self-training과 감독되지 않은 pre-training이 등장.
그러나 그들이 유사한 패턴을 배우는지 또는 효과적으로 결합 될 수 있는지는 명확하지 않다.
본 논문은 wav2vec 2.0을 사용한 pseudo-labeling과 pre-training이 다양한 라벨링 된 데이터 설정에서
상호 보완적임을 보여줌.
Libri-light의 라벨링 된 데이터 10분과 LibriVox의 라벨링되지 않은 데이터 53k 시간을 사용하여
1 년 전 데이터 Librispeech의 깨끗한 테스트 세트와 기타 테스트 세트에서 3.0 % / 5.2 %의 WER를 달성.