End-to-end audio-visual speech recognition with conformers (ICASSP 2021)

dnlwldnl 2021. 6. 21. 17:01

-Abstract-

이 작업에서는 e2e 방식으로 훈련 할 수 있는 ResNet-18과 Convolution-augmented Transformer (Conformer)를 기반으로하는 하이브리드 CTC / Attention 모델을 제시함.

특히, audio와 visual encoders는 각각 raw 픽셀과 오디오 파형에서

직접 특징을 추출하는 방법을 학습 한 다음 conformers에 공급 한 다음 MLP (Multi-Layer Perceptron)를 통해 융합이 발생함.

모델은 CTC와 Attetnion mechanism의 조합을 사용하여, 문자를 인식하는 방법을 배움.

논문에서 흔히 볼 수 있는

미리 계산 된 시각적 특징을 사용하는 대신 -> end-to-end 훈련과

recurrent network 대신 -> conformer 사용과 transformer-based language model 사용이 우리 모델의 성능을 크게 향상됨을 보여준다.

각각 문장 수준의 음성 인식, 입술 읽기 문장 2 (LRS2) 및 입술 읽기 문장 3 (LRS3)에 대해 공개적으로 사용 가능한 가장 큰 데이터 세트에 대한 결과를 제시함.

결과는 우리가 제안한 모델이 오디오 전용, 시각 전용과 시청각 실험에서 최첨단 성능을 크게 향상 시켰음을 보여줌.

1. Introduction

AVSR (Audio-Visual Speech Recognition)은 오디오과 시각적 스트림에서 텍스트를 전사하는 작업으로,

최근 소음에 대한 견고성으로 인해 많은 연구 관심을 끈다.

시각적 스트림은 소음의 존재에 영향을 받지 않기 때문에

시청각 모델은 소음 수준이 증가함에 따라 오디오 전용 모델보다 성능이 향상 될 수 있다.

기존의 시청각 음성 인식 방법은 2 단계 접근 방식, 특징 추출과 인식을 따른다 [9, 26].

최근 deep neural network 내에서 특징 추출과 인식을 결합하여

여러 End-to-End (E2E) approaches이 제시되었으며,

이로 인해 각각 VSR (시각적 음성 인식) 및 ASR (자동 음성 인식)이 크게 향상함.

VSR에서 Assael et al. [4]는 GRID [6]에서 시각적 음성을 인식하기 위해

GRU (Gated Recurrent Unit)를 사용하여 3D 컨볼 루션을 기반으로하는 최초의 end-to-end network를 개발.

Shillingford et al. [27]은 비디오 클립에서 문자 대신 음소 분포를 예측하는 Vision to Phoneme (V2P)라는 모델의 개선 된 버전을 제안함.

Chung과 Zisserman [5]은 VSR in-the-wild를 위한 attention-based sequence-to-sequence model을 개발함.

Zhang et al. [36]은 convolution 기반 sequence-to-sequence 모델에서 국부적으로 시간 역학을 포착하기 위해 Temporal Focal 블록을 제안했습니다.

< 특징 설명 >

ASR에서 [22, 35]는 최근에 log-Mel filter-bank features과 같은 hand-crafted features으로 만든 특징을 네트워크의 심층 표현으로 대체하여 더 나은 인식 성능을 달성하는 것으로 나타남.

최근에 미리 계산 된 시각 또는 청각 특징이 사용되는 몇 가지 시청각 접근 방식이 제시됨 [1, 19, 25, 29, 34]..

Afouras et al. 미리 계산 된 시각적 특성과 log-Mel filter-bank features을 입력으로 사용하여

transformer-based sequence-tosequence model을 개발함.

[19, 29, 34] 비디오 클립과 log-Mel filter-bank features을 입력으로 사용하여

시청각 음성 인식 모델을 종단 간 방식으로 훈련시키는 데 중점을 둔다.

원시 픽셀과 오디오 파형으로 훈련된다는 점에서 진정한 E2E 인 시청각 연구는 거의 없다 [17, 24].

특히 [24]는 단어 분류에만 적용되었고 [17]은 제한된 환경에서 테스트됨.

이 작업에서는 [25]에 제시된 이전 시청각 모델을 원시 픽셀과 오디오 파형에서 직접 특징을 추출하는 e2e 모델로 확장하고 성능을 크게 향상시키는 몇 가지 변경 사항을 도입함.

특히 특징 추출 단계를 하이브리드 CTC /attention back-end와 통합하고 모델을 공동으로 학습함

그 결과 성능이 크게 향상됨.

또한 반복 네트워크를 conformers로 대체하여 최첨단 성능을 더욱 향상시킴.

마지막으로 RNN-LM (RNN 기반 언어 모델)을 성능을 더욱 향상시키는 transformer-based LM 으로 대체함.

또한 log-Mel filter-bank features과 raw waveforms으로 훈련 된 오디오 전용 모델 간의 비교도 수행함.

깨끗한 상태에서는 둘 다 비슷하게 수행되지만

원시 오디오 모델은 잡음이 있는 상태에서 약간 더 잘 수행함.

가장 큰 야생 시청각 음성 데이터 세트인 LRS2 및 LRS3에서 제안 된 아키텍처를 평가함.

최첨단 성능은 두 데이터 세트에 대한 오디오 전용, 시각적 전용 및 시청각 실험의 경우 큰 차이가 났으며

훨씬 더 큰 외부 데이터 세트에서 훈련 된 방법을 능가함.

2. Dataset

LRS2 [5]와 LRS3 [3]라는 두 개의 대규모 공개 시청각 데이터 세트를 사용함.

머리 자세와 조명에 큰 변화가 있기 때문에 두 데이터 세트 모두 매우 어렵다.

LRS2 [5]는 BBC 프로그램에서 144,482 개의 비디오 클립으로 224.1 시간으로 구성됨.

특히 pre-train (195 시간)에 대해 96318 개의 발화,

train (28 시간)에 대해 45,839,

validation에 대해 1,082 (0.6 시간),

test에 대해 1243 (0.5 시간)이다.

TED 및 TEDx 토크에서 수집 된 LRS3 [3]은 LRS2 데이터 세트의 두 배이다.

LRS3에는 151,819 개의 발화 (438.9 시간)가 포함함.

특히, pre-train (408 시간)에 118,516 개의 발화,

training-validation (30 시간)에 31,982 개의 발화,

test (0.9 시간)에 1,321 개의 발화가 있다.

3. Architecture

시청각 모델의 인코더는 아래에 설명 된 바와 같이

front-end, back-end, fusion modules의 세 가지 구성 요소로 구성됨.

Front-end

음향와 시각적 front-ends architectures는 표에 나와있다.

커널의 크기는 {temporal size × spatial size^2 , channels} 로 표시.

acoustic model과 visual backbones에는 각각 3.85M 및 11.18M 매개 변수.

Ta 및 Tv는 각각 입력 샘플 및 프레임 수.

시각적 스트림의 경우 수정 된 ResNet18 [11, 28]을 사용함.

여기서 첫 번째 convolutional layer은 커널 크기가 5 × 7 × 7 인 3D convolutional layer으로 대체함.

residual block의 끝에 있는 시각적 특징은 global average pooling layer에 의해 공간 차원을 따라 압착됨.

오디오 스트림의 경우 1D 컨벌루션 레이어를 기반으로하는 ResNet-18을 사용.

여기서 첫 번째 convolutional layer의 필터 크기는 80 (5ms)으로 설정.

시간 척도를 다운 샘플링하기 위해 스트라이드는 모든 블록에서 2로 설정.

유일한 예외는 보폭을 4로 설정한 첫 번째 블록이다.

front-end module의 끝에서 음향 특징은 시각적 특징의 프레임 속도와 일치하도록 초당 25 프레임으로 다운 샘플링.

Back-end

최근에 제안 된 conformer encoder 10]를 시간 모델링을 위한 백엔드로 사용함.

embedding module과 conformer blocks로 구성함.

embedding module에서 선형 계층은 ResNet18의 기능을 dk 차원 공간으로 투영함.

투영 된 특징은 상대 위치 정보로 인코딩됨[7].

각 conformer block에는 feed-forward module, MHSA (Multi-Head Self-Attention) 모듈, convolutional module과 feed-forward module이 순서대로 적층되어 있다.

convolutional module 은

확장 계수가 2인 point-wise convolutional layer를 포함하고

Gated Linear Units (GLU) [8],

temporal depth-wise convolutional layer,

batch normalization layer,

swish activation layer,

point-wise convolutional layer,

layer normalisation layer.

이 조합은 트랜스포머 아키텍처에 비해 ASR 성능을 향상시키는 것으로 나타남.

이는 로컬 및 글로벌에서 시간 정보를 더 잘 캡처하기 때문 [10].

Fusion layers

backend modules의 음향과 시각적 특징은 MLP에 의해 연결되어 dk 차원 공간에 투영.

MLP는 출력 크기가 4 x dk인

linear layer, batch normalization layer, ReLU, 출력 차원이 dk인 final linear layer으로 구성.

Decoder

우리는 임베딩 모듈로 구성된 [31]에서 제안한 트랜스포머 디코더를 사용하고

그 뒤에 multihead self-attention blocks 세트를 사용함.

embedding module에서 인덱스 1에서 l-1까지의 접두사 시퀀스는 임베딩 벡터로 투영함.

여기서 l은 목표 길이 인덱스이다.

absolute positional encoding [31]도 임베딩에 추가함.

self-attention block은 두 개의 attention modules과 feed-forward module로 구성함.

특히, 첫 번째 self-attention module은 Q = K = V를 입력으로 사용하고

attention matrix에서 future positions는 가려짐.

두 번째 attention module은 이전 self-attention module의 특징을 Q로 사용하고 인코더의 표현을 K 및 V (K = V)로 사용함.

feed-forward module의 구성 요소는 인코더의 구성 요소와 동일함.

Loss functions

x = [x1, ..., xT]와 y = [y1, ..., yL]을 각각 입력 시퀀스와 target symbols로 지정하고 T와 L은 각각 input과 target lengths를 나타낸다.

시청각 음성 인식의 최근 연구는 시청각 인식을 위해

주로 CTC [17] 또는 attention-based models [1, 5]에 의존함.

CTC 손실은 각 출력 예측 간의 조건부 독립성을 가정하며, 다음과같은 형태를 갖는다.

attention-based model은 다음과 같은 형태의 chain rule을 기반으로 posterior를 직접 추정하여 이러한 가정을 제거함.

하이브리드 CTC / Attention 아키텍처 [32]를 채택하여 단조로운 정렬을 강제하고 동시에 조건부 독립 가정을 제거함.

여기서 α는 CTC과 attention mechanisms에서 relative weight를 제어

4. Experiments

전처리 각 비디오에서 68 개의 얼굴 랜드 마크가 dlib를 사용하여 감지되고 추적됨[14].

회전 및 배율과 관련된 차이를 제거하기 위해

유사성 변환을 사용하여 얼굴을 신경 참조 프레임에 정렬함.

96 × 96의 bounding box는 mouth ROIs를 자르는 데 사용함.

잘린 패치는 추가로 회색조로 변환되고training set의 전체 mean과 variance과 관련하여 정규화.

각 raw audio waveform은 평균을 제거하고 표준 편차로 나누어 정규화함.

데이터 증가 [20, 28]에 따라 88 × 88 크기의 무작위 자르기와 0.5 확률의 수평 뒤집기가 각 이미지 시퀀스에 대해 수행함.

각 오디오 파형에 대해 추가 노이즈, 시간 마스킹과 대역 거부 필터링이 시간 도메인에서 수행.

NOISEX 말뭉치 [30]의 Babble noise이 [-5dB, 0dB, 5dB, 10dB, 15dB, 20dB]의 SNR 레벨로 원본 오디오 클립에 추가함.

노이즈 레벨 중 하나를 선택하거나 깨끗한 파형을 사용하는 것은 균일 한 분포를 사용하여 수행함.

[13]과 마찬가지로 최대 길이가 0.4 초인 2 세트의 연속 오디오 샘플은 0으로 설정되고

최대 폭이 150Hz 인 2 세트의 연속 주파수 대역은 거부함.

오디오 전용 실험에서는 속도를 0.9와 1.1 사이로 설정하여 속도 섭동을 추가함.

Experimental settings

네트워크는 인코더 부분의 front-end modules을 제외하고 무작위로 초기화함.

일부 실험에서는 LRW에서 공개적으로 사용 가능한 pre-trained models을 기반으로 초기화됨 [18].

back-end modules은 하이퍼 매개 변수 세트 (e = 12, d_ff = 2048, d_k = 256, d_v = 256)를 사용함.

여기서 e는 conformer blocks의 수를 나타냄.

n head의 수는 visual-only 모델에서 각각 4 개,

audioonly/audio-visual models에서 8 개로 설정함

커널 크기는 각 depth-wise convolutional layer에서 31로 설정함

transformer decoder는 6 개의 self-attention blocks을 사용하는데,

feedforward 및 self-attention modules의 hyper-parameters 설정은 인코더에서와 동일함.

Adam 최적화 도구 [15]는 미니 배치 크기가 8 인 end-to-end 학습에 사용됩니다. [31]에 따라 학습률은 다음과 같이 선형 적으로 증가함.

처음 25,000 steps, 0.0004의 최대 학습률을 산출하고 이후 단계 수의 역 제곱근에 비례하여 감소함.

전체 네트워크는 50 epoch 동안 훈련함.

pre-training set에서 프레임이 600 개 이상인 발화는 학습 중에 제외함.

Language Model

10 epoch에 대해 변환기 기반 언어 모델 [12]을 훈련함.

언어 모델은 LibriSpeech (960 시간) [21]의 학습 기록, LRS2 [5] 및 LRS3 [3]의 사전 학습 및 학습 세트 (총 1620 만 단어)를 결합하여 학습함.

언어 모델에서 가중 된 사전 점수는 얕은 융합을 통해 통합됨.

λ는 디코딩 단계에서 상대적인 CTC 가중치이고 β는 언어 모델의 상대적 가중치이다.

작업에서는 λ를 0.1로, β를 0.6으로 각각 설정함.

5. RESULTS

섹션에서는 기본 하이브리드 CTC/Attention mode [25]에 대한 각 변경의 영향을 조사

LRS2에 대한 결과는 표에 나와있다.

먼저 모델을 처음부터 end-to-end manner으로 훈련하여

시각적 특징을 먼저 추출한 다음

back-end로 공급하는 2 단계 접근 방식에 비해 12.6 %의 절대적인 향상함.

LRW에 대해 pre-trained 모델로 visual front-end를 초기화하고 4.7 %의 추가적인 절대 개선이 관찰함.

그런 다음 LSTM 인코더와 디코더를 각각 conformer encoder와 transformer decoder로 교체하여 절대적으로 3.8 % 향상.

또한 RNN 기반 언어 모델을 transformer-based language model로 대체하고 37.9 %의 WER를 달성함.

이것은 4.5 %의 절대적인 향상으로 이어짐.

LRS2에서 audio-only, visual-only , audio-visual의 단어 오류율 (WER). VC2clean은 VoxCeleb2의 필터링 된 버전. LRS2 & 3은 LRS2와 LRS3으로 구성. LRS3v0.4는 스피커 독립적 설정이 적용된 LRS3의 업데이트 된 버전

제안 된 시각적 전용 모델은 WER를 48.3 %에서 39.1 %로 줄이면서 훈련 데이터를 6 배 더 적게 사용함[1].

초기화를 위해 사전 훈련 된 LRW 모델을 사용하는 경우 WER가 37.9 %로 더 떨어짐.

훈련에 오디오 파형을 사용하는 E2E 오디오 전용 모델은 4.3 %의 WER를 달성하여 2.4 %의 절대적인 향상을 가져옴.

현재의 최신 기술을 통해. 비교를 위해 [25, 32]에 따라 80 차원log-Mel filter-bank features을 사용하여 실험을 실행.

raw audio features을 log-Mel filter-bank features으로 대체하여

동일한 성능 WER 4.3 %를 관찰함.

이는 제안 된 시간 네트워크를 기반으로 한 깊은 음향 음성 표현이 오디오 파형에서 직접 학습 될 수 있음

차이점을 더 잘 조사하기 위해 다양한 수준의 babble noise을 변화시키는 noisy 실험을 수행함.

raw audio model의 성능이 -5dB에서

최대 절대 마진이 7.5 % 인 다양한 수준의 babble noise 에 기반한

log-Mel 필터 뱅크보다 약간 우수한 성능을 보이는 것.

이는 깊은 음성 표현이 log-Mel filter-bank features보다 노이즈에 더 강하다는 것.

LRW에서 사전 훈련 된 모델로 오디오 인코더를 초기화 한 경우 WER가 3.9 %로 떨어짐.

오디오 파형과 원시 픽셀에서 직접 학습하는 시청각 모델이 오디오 전용 모델에 비해 약간의 향상을 가져옴은 분명함.

또한 babble noise의 SNR 수준을 변경하는 오디오 전용, 시각 전용, 시청각 실험도 실행함

오디오 전용과 시청각 모델은 모두 노이즈 주입으로 보강함.

시청각 모델이 오디오 전용 모델보다 더 나은 성능을 달성한다는 것은 분명함.

원시 오디오 전용 모델과 시청각 모델 간의 격차는 높은 수준의 노이즈로 인해 더 커짐.

LRS3에 대한 결과 LRS3 v0.4에 대한 결과는 표에 보고됨

최고의 시각 전용 모델의 WER는 43.3 %.

시각적 전용 모델은 더 적은 훈련 데이터를 사용하면서 다른 방법보다 큰 차이를 보임.

오디오 전용 및 시청각 실험의 경우,

모델은 최첨단 성능을 각각 2.3 %과 2.3 %로 밀어 올려 [19]보다 각각 2.5 % 및 2.2 % 앞섰다.

모델은 [19]보다 52 배 더 작은 595 시간 대 31000 시간 인 데이터 세트에서 학습된다는 점을 지적 할 가치가 있다.

일부 작품은 LRS3의 이전 버전 (v0.0으로 표시됨)을 사용하며, 일부 스피커는 교육 및 테스트 세트에 모두 표시.

공정한 비교를 위해이 버전의 LRS3에서도 오디오 전용, 시각적 전용 및 시청각 모델의 성능을 보고함.

특히 오디오 전용 모델은 WER를 1.3 %로 달성

시각 전용 모델은 WER를 30.4 %로 줄임.

시청각 모델은 WER를 1.2 %로 줄여 이 세트의 새로운 최첨단 성능이다.

LRS3v0.4에 비해 이러한 현저한 개선은 주로 LRS3v0.0에서 중복 된 ID가 사전 학습 및 테스트 세트 모두에 표시되기 때문이다.