https://arxiv.org/pdf/1904.03416.pdf
Unsupervised learning에 대한 관심이 증가함에 따라
label이 지정되지 않은 오디오에서 의미있는 knowledge를 추출하는 것은 어려운 일이다.
본 논문의 저자는 self-supervised problems(Ground Truth로 수동 주석이 필요하지 않는 문제)를 해결하는 작업을 수행하는 multiple neural networks을 가진 convolutional encoder를 결합하는 problem-agnostic speech encoder (PASE)를 제안한다.
이전 논문에서 제안된 PASE는 화자 음성 출력과 음소를 포함한 관련 음성 정보를 챕처하는 것을 목표로 하였고 해당 논문은 noisy와 reverberant 환경에서 robust speech recognition을 위한 개선 버전인 PASE+를 제안한다.
1. noisy와 reverberant을 제공하기 위해 다양한 random disturbances로 입력 신호를 왜곡시키는 online distortion module을 사용함.
2. 기존 FASE 보다 확장된 self-supervision에 사용되는 확장된 workers을 개선함.
1. introduction
딥러닝은 일반적으로 대규모 데이터에서 supervised way으로 학습되는 hierarchical representations에 의존되지만 한편으로 unlabelled data에서 어떻게 효과적인 knowledge를 추출할 수 있는 기술을 연구하는데 큰 관심을 불러 이르키는 연구이다.
대표적인 초기 unsupervised learning 방법은 deep auto encoders와 Boltzmann machines으로 pre-training deep neural networks로 사용되었다.
최근에는 variational autoencoders와 generative adversarial networks 기술 이용.
Self-supervised learning 기술은 자연어에서 BERT 구조와 이미지와 음성 분야에서도 활발히 발전 중이다.
하지만 최근 발전에도 불구하고, self-supervised learning은 speech에서는 어려움.
음성 신호는 서로 다른 시간 척도에서 관련 정보를 포함하는 복잡한 hierarchical structure (samples -> phonemes -> syllables -> words -> sentences -> semantic contents)을 가진다.
또한 음성은 화자, 단른 언어, 음향 환경, 녹음 설정으로 다양한 변동성이 있는 특징이다.
따라서 음성에서는 supervision guidance 없이는 어렵다.
이전에 제안된 PASE는 covolution encoder에 이어 workers라는 작은 neural networks의 ensemble을 사용하여 여러 공동 작업을 해결하도록 훈련되었다.
하지만 초기 PASE은 몇가지 소규모 음성 작업(감정인식, 화자인식, 음성인식)에서는 유망한 결과를 제공하였지만, noise와 reverberation에 robust features를 학습하도록은 설계되지 않았다. 따라서 해당 논문은 PASE+로 해당 문제를 개선한다.
개선 사항에는 reverberation, additive noise, temporal/frequency masking, clipping, and overlapped speech을 사용하여 깨끗한 음성 세그먼트를 오염 된 변형으로 변환하는 온라인 왜곡 모듈의 개발이 포함된다.
그 다음에는 convolutional encoder를 QRNN(quasi-recurrent neural network) [16]과 결합한다.
* QRNN은 시간 단계에 걸쳐 convolution gate와 최소 반복 풀링하여 효과적인 방식으로 장기 종속성을 학습.
알려진 다양한 음성 변환을 추정하는 몇 가지 새로운 작업자를 소개.
이를 위해 ground-truth targets이 원래의 깨끗한 신호에서 추출.
이러한 방식으로 데이터 증가를 활용할 뿐만 아니라
인코더가 노이즈 제거를 수행하고
왜곡 불변 특징을 학습하도록 권장함.
PASE는 raw 신호와 self-supervised learning에만 의존하는 반면 공유 된 음성 지식을 감독 방식으로 활용했기 때문이다.
2. SELF-SUPERVISED LEARNING WITH PASE+
self supervised learning으로 pre-trained PASE +는
독립형 특징 추출기 (고정 가중치 포함)로 사용하거나
관심 있는 일부 작업 (예 : 음성인식 )
다음과 같은 작업을 해결하는 target acoustic model (지도 훈련 포함)의 일부로 사용
각 블록은 1 차원 컨볼 루션, 배치 정규화 (BN) [23] 및 다중 매개 변수 정류 선형 단위 (PReLU) 활성화 [24]를 사용.
컨볼 루션 세트는 일반적인 음성 특징 추출기에서 수행되는 것처럼 10ms의 이동으로 슬라이딩 윈도우를 에뮬레이트.
PASE +는 다음과 같이 이전 인코더 아키텍처를 개선:
PASE+에는 음성 왜곡 모듈, raw 샘플을 더 높은 수준의 표현으로 변환하는 음성 인코더,
공유 인코딩 된 특징에 의해 공급
서로 다른 자아를 협력적으로 해결하는 감독되는 작업 12 개의 작업자 세트가 장착.
[15]와 유사하게 인코더의 첫 번째 계층은 SincNet [22]을 기반으로하며,
이는 직사각형 대역 통과 필터를 구현하는 매개 변수화 된 sinc 함수 세트로
raw 입력 파형의 convolution을 수행
후속 레이어는 7 개의 컨볼 루션 블록으로 구성.
1. Skip connections : 최종 표현은 출력 임베딩 시퀀스 차원 및 길이와 일치하도록 선형으로 프로젝션되고
다운 샘플링되는 중간 컨볼 루션 레이어에서 발견 된 특징의 합계
스킵 연결은 엔코더 아키텍처에 단축키를 도입하여
다양한 수준의 추상화를 최종 표현으로 연결하고 그래디언트 흐름을 개선합니다.
2. Quasi-RNN: PASE +는 convolution layer의 맨 위에 배치 된 QRNN을 사용하여 장기 종속성을 효율적으로 학습.
1-D convolution과 최소 순환 풀링 함수로 구현 된 곱셈 게이트를 기반함.
QRNN 게이트는 이전 계산에 의존하지 않으며 모든 시간 단계에 대해 병렬로 계산.
QRNN은 계산 부하가 낮은 기존 LSTM 또는 GRU 모델과 유사한 성능을 제공[16].
2.3. workers
작업자는 회귀 또는 이진 분류 문제로
정의 된 12 개의 self-supervised tasks을 해결하는
작은 feed-forward neural networks (일반적으로 256 개의 hidden units이 있는 하나의 hidden layer)으로 구현
이들의 용량은 인코더가 제한된 모델링 능력을 가진 분류기에서도 성공적으로 활용할 수 있는
높은 수준의 특징을 발견하도록 하기 위해 의도적으로 제한.
중요한 것은 작업자 supervised targets이 왜곡 된 버전이 아닌 원래의 깨끗한 신호에서 추출된다는 것
이런 식으로 PASE +가 암시 적 잡음 제거를 수행하고 강력한 특징을 학습하도록함.
2.3.1 Regression Tasks
Regression workers는
음성 특징 (라벨로 사용됨)과 네트워크 예측 간의
평균 제곱 오차 (MSE)를 최소화하도록 훈련
그 뒤에 있는 동기는 잘 알려진 음성 변환을 활용하여 일부 사전 지식을 인코더에 주입하는 것
기존 로그 파워 스펙트럼 (LPS), MFCC, 운율 특성, 음성 파형 자체에 더 추가.
• 더 많은 특징 추가 : 40 개의 FBANKS 및 40 개의 감마 톤 기능을 추정하는 새로운 작업자를 추가 [25].
• 더 긴 컨텍스트 추정 : PASE +는 1 차 및 2 차 델타와 함께 모든 음성 기능을 추정.
또한 현재 특징만 추정하는 대신 7 개의 인접 프레임의 컨텍스트 창 내에서 여러 특징을 공동으로 추정.
이런 식으로 로컬 표현이 더 큰 컨텍스트의 정보를 포함하도록 돕는다.
• 더 긴 창에서 기능 추정 :
다른 회귀 분석에서 사용하는 일반적인 25ms가 아닌 200ms의 긴 분석 창에서
계산 된 앞서 언급 한 특징을 추정하는 새 작업자를 추가함.
2.3.2. Binary Tasks
Binary workers는 음성 신호에서 더 높은 수준의 정보를 캡처하는 작업을 해결한다.
이러한 작업은 PASE로 인코딩 된 표현 pool에서 anchor, positive, negative 샘플을 추출하는 사전 정의 된 샘플링 전략에 의존.
채택 된 신경망은 anchor, positive 표현 간의 상호 정보를 최대화하도록 훈련 된 간단한 Binary workers이다.
PASE +에서 사용되는 것은 다음과 같다.
• LIM (Local info max) : [14]에서 제안한 대로 앵커의 동일한 문장 내에서
추출 된 PASE 특징에서 긍정적인 샘플과 다른 임의의 문장 (다른 화자에 속할 가능성이 높은)에서 부정적인 샘플을 추출.
PASE+의 큰 수용 필드를 감안할 때 각 인코딩 된 프레임은 상대적으로 큰 컨텍스트를 포함함.
• GIM (Global info max) : LIM과 달리 이 작업자는 글로벌 정보에 의존.
앵커 및 긍정 표현은 동일한 문장에 속하는 2 초의 긴 청크에서 추출 된 모든 PASE 특징을 평균하여 얻는다.
부정적인 것은 다른 문장에서 얻는다.
GIM은 PASE가 입력 시퀀스에 대한 높은 수준의 정보를 포함하는 표현을 학습하도록 권장하며,
이는 LIM이 학습 한 내용을 보완 할 수 있기를 바람.
2.4. Self-supervised Training
인코더와 작업자는 각 작업자 비용의 평균으로 계산되는 총 loss을 최적화하여 역전 파와 함께 공동 교육을 받는다.
예를 들어 hypervolume maximization [28]의 사용을 탐색하면서 각 작업자에게 동적 가중치를 추가하는 실험을 수행함.
모든 신경망은 Adam [29]으로 최적화되어 있으며,
다항식 스케줄러를 사용하여 어닐링 된 10-3의 초기 학습률을 사용합니다 [30].
각 2 초 길이의 32 개 파형 청크의 미니 배치를 사용합니다. 이 시스템은 200 epoch 동안 훈련함.
2.1. Online speech contamination
견고성을 개선하기 위해, 여러 왜곡으로 입력 음성을 인위적으로 오염시키는 모듈을 도입
오염은 self-supervised training 중에만 활성화.
모든 입력 문장이 다른 방식으로 왜곡되도록 즉석에서 발생.
각 왜곡 변환은 특정 확률 p로 활성화.
각 음성 세그먼트를 동시에 여러 왜곡에 의해 손상 가능.
Reverberation은 입력 신호를 이미지 방법으로 도출 된
1300개의 임펄스 응답 세트로 convolving하여 도입 [18].
임펄스 응답은 0.3 ~ 0.9 초 범위의 잔향 시간 T60으로 다양한 음향 조건을 시뮬레이션.
Additive noises는 RHA 데이터 세트 [19, 20]에서 추출되며 경보, 문 두드리기, 전화 벨소리, 텔레비전 등과 같은 배경 소음과 비정상 소음을 모두 포함.
신호 대 잡음비 (SNR)는 0 ~ 10dB 사이에서 무작위로 샘플링.
Other considered disturbances는 시간적 마스킹 (즉, 0으로 설정된 임의의 수의 연속 샘플), 클리핑 (즉, 임의의 포화도),
중첩 음성 (백그라운드에서 우세하지 않은 화자 1 명). (SpecAugment [21]에서 제안 된 것과 유사)
3. Corpora and ASR setup
Self-supervised training은 LibriSpeech 데이터 세트의 50 시간 부분으로 수행함 [31].
대상 음성 인식 실험은 다양한 도메인 외 데이터 세트로 수행됨.
첫 번째 실험 세트는 TIMIT [32]를 사용하여 수행.
원래의 깨끗한 버전과 함께 노이즈 시퀀스와 실제 임펄스 응답을 사용하여 오염 된 버전의 TIMIT를 생성 [33].
(self-supervised training에 사용되는 것과 다름).
더 큰 데이터 세트에 대한 접근 방식을 평가하기 위해 DIRHA 데이터 세트 [19]도 사용.
훈련 및 검증 세트는 국내 환경에서 시뮬레이션 된 원본 WSJ-5k 말뭉치 (83 명의 화자가 발화 한 7138 개의 문장으로 구성됨)를 기반.
테스트 세트는 T60이 0.7 초이고 평균 SNR이 10dB 인 국내 환경에서 6 명의 미국인이 녹음 한 WSJ 문장 409 개로 구성.
마지막으로, 저녁 파티의 실제 기록을 기반으로하는 CHiME-5 데이터 세트 [34]를 사용하여 일련의 실험이 수행.
CHiME-5는 소음, 잔향, 겹침 및 대화 연설이 특징인 도전적인 작업이다.
이 작품은 하이브리드 HMM-DNN 음성 인식기를 사용함.
TIMIT에보고 된 성능은 서로 다른 시드로 각 실험을 세 번 실행하여 얻은 전화 오류율 (PER %)의 평균.
CHiME-5 결과는 Kaldi [37]를 기반으로하며 PASE + 특징에 대해 훈련 된 시간 지연 신경망 (TDNN) [38, 39] 음향 모델에 의존함.
4. Results
PASE가 고정되어 간단한 특징 추출기로 사용.
첫 번째 행은 LibriSpeech에서만 10 시간 동안 훈련 된 PASE [15]의 원래 버전으로 얻은 결과를 보여줌.
두 번째 행에서는 50 시간 동안 PASE를 훈련 할 때 깨끗하고 시끄러운 조건에서 몇 가지 이점.
그런 다음 오염 모듈의 영향을 보여줌.
흥미롭게도 온라인 왜곡을 추가하면 시끄러운 상황에서 성능이 향상 될뿐만 아니라 깨끗한 상황에서도 성능이 향상.
사실 데이터 증가는 특히 감독되는 분류기가 TIMIT와 같은 작은 데이터 세트로 훈련 된 경우에 도움이되는 강력한 정규화 기 역할을 함.
네 번째 (+ QRNN) 및 다섯 번째 행 (Skip connection)에서는 수정 된 인코더로 인한 개선을 보여줌.
QRNN은 더 긴 컨텍스트를 포함하는 것이 더 중요한 소음 / 반향 조건에 큰 영향을 미침.
또한 표현의 차원을 100에서 256으로 늘릴 때 몇 가지 이점을 발견.
이 작업은 신호 압축을 목표로하는 것이 아니라 다음 감독되는 분류자가 더 잘 활용할 수있는 형식으로 신호를 표현하는 것.
마지막으로, 우리는 광범위한 근로자를 채택했을 때 달성 된 결과를 보고함.
4.2. Comparison with standard speech features
PASE +를 음성 인식에 사용되는 가장 인기있는 hand-crafted features과 비교함.
결과는 PASE + (Frozen)가 모든 수공예 특징을 능가하는 것으로 나타 났으며
DIRHA에서 최고의 성능에 비해 13.5 %의 상대적 WER 향상.
PASE + (Frozen)는 자체 감독되는 사전 훈련을 활용하지 않고
raw 파형에서 직접 훈련되는 감독되는 end-to-end PASE (Supervised)보다 성능이 뛰어남.
PASE + (FineTune) 중에 인코더 표현을 미세 조정할 때 최고의 성능을 달성하여 고정 버전에 비해 상대적으로 3.1 % 향상.
마지막으로 표는 CHiME-5 데이터 세트에서 얻은 WER (%)를 보고함
원거리 음성 시나리오의 경우 PASE + 특징 추출기
(즉, LibriSpeech 데이터의 50 시간에 대해 사전 훈련 된 고정 가중치)로 작동하는 경우
MFCC 기반 시스템 (상대 개선의 3.0 %)보다 성능이 우수하고
화자에 맞게 훈련 된 MFCC + ivectors 변형에 접근합니다 ( -1.3 % 상대 차이).
또한 PASE + 기능이 MFCC 및 ivector를 보완하는 것으로 확인 된 조합 시나리오를 보고하여
MFCC 및 MFCC + ivector 기능과 결합 할 때 각각 1.2 % 및 3.7 %의 상대적 성능 향상을 제공함.