본문 바로가기
논문(papers)/음성인식

Fusing information streams in end-to-end audio-visual speech recognition

by dnlwldnl 2021. 6. 15.

https://arxiv.org/pdf/2104.09482v1.pdf

 

-Abstract-

End-to-end 음향 음성 인식은 빠르게 널리 보급되었으며, 많은 연구에서 유망한 결과를 보여준다.

특히 joint transformer/CTC model은 많은 작업에서 매우 우수한 성능을 제공한다.

그러나 시끄럽고 왜곡 된 조건에서는 성능이 여전히 현저하게 저하됨.

시청각 음성 인식은 이러한 열악한 조건에서 end-to-end 모델의 인식률을 크게 향상 시킬 수 있지만.

이러한 모델에서 음향과 시각에 대한 가능한 정보를 가장 잘 활용하는 방버은 분명하지 않다.

따라서 음향 및 시각 정보 스트림의 시변 신뢰성을 transformer/CTC 모델에 최적으로 알리는 방법에 대한 질문을 고려함.

attention mechanism의 시간적 효과를 고려한 decision fusion net에 신뢰성 정보를 통합하는 새로운 전략을 제안함.

이 접근 방식은 Lip Reading sentences 2와 3 (LRS2 and LRS3) 에 대해 최첨단 기준 모델에 비해 상당한 개선을 보임.

평균적으로 오디오 전용 설정에 비해 43%, audiovisual end-to-end baseline에는 31%의 상대적 단어 오류율 감소를 달성한다. 

 

1.  Introduction

최근에는 E2E (end-to-end) 자동 음성 인식 (ASR)이 많은 관심을 받고있다.

E2E 모델은 기존 하이브리드 ASR보다 구조가 훨씬 간단하지만 결과는 만족스럽지 않다 [1].

 

그 이유는 두 가지.

1) 하이브리드 모델의 언어 모델은 일반적으로 많은 양의 외부 텍스트 데이터에 대해 학습함.

반대로 대부분의 E2E 모델은 명시적 언어모델을 사용하지 않음.

 

2) [2]에 보고 된 바와 같이 E2E 모델, 특히 transformer[3]는 ovefiting 가능성이 더 높다.

 

이 작업에서는 모든 실험에 E2E 음성 처리 툴킷 ESPnet[4]을 사용함.

ESPnet은 SpecAugment [5]를 사용하여 과적합 문제를 극복하고

외부 언어 모델을 사용하여 E2E 모델을 디코딩 할 수 있으므로 두 가지 문제를 모두 해결.

 

TMCTC로 표시되는 CTC를 사용하는 S2S (Sequence-to-Sequence) transformer 모델이 실험에 사용.

공동 모델은 다양한 작업에서 높은 성능을 보여줌 [6, 7].

[8]에 설명 된대로 CTC는 특징과 전사를 명시적으로 정렬하는 방법을 학습하여 모델이 더 빠르게 수렴하는 데 도움.

 

따라서 훈련 단계에서는 CTC와 S2S 목표의 선형 조합을 목적 함수로 선택함.

 

s를 state로 , 상수 하이퍼 파라미터 α를 사용함.

 

디코딩하는 동안 RNN 언어 모델 pLM(s)도 사용함.

 

여기서 θ는 언어 모델의 기여도를 제어함.

일반적으로 사람들은 시끄러운 환경에서 말을들을 때

무의식적으로 서로의 입술을 읽어 더 많은 보충 정보를 얻는다.

는 인간의 언어 인식에 큰 도움이됨 [9].

 

McGurk 효과 [10]에서 보여주는 것처럼

깨끗한 말에서도 말하는 사람의 입술을 보는 것이 지각에 영향을 미친다.

 

기계 시청각 음성 인식 (AVSR)은 수년 동안 개발되다 [11].

 

그러나 하이브리드이든 E2E이든

현재의 AVSR은 여전히 이 2차 정보(오디오,비디오) 스트림을 최적으로 사용하지 않는 것 같다.

단어 오류율 (WER)이 ​​노이즈 조건에서 여전히 분명히 감소하기 때문임 [7, 12].

 

TM-CTC 모델과 AVSR의 장점을 결합하여 이 문제를 완화함.

 

이를 위해 많은 연구에서 다중 모드 통합에 유익한 것으로 입증 된

추가 신뢰성 지표를 사용할 것을 제안함 [13, 14, 15].

 

TMCTC의 어텐션 모듈에서 발생하는 시간적 재정렬로 인해

이 조합을 달성하는 방법이 명확하지 않는다. (visual 어려움)

 

주어진 지점에서 attention 디코더의 초점과 일치하도록 신뢰성 정보를 정렬하는 새로운 접근 방식을 제안함.

이 접근 방식은 시청각 음성 인식에 효과적이며 더 광범위한 주의 기반 시계열 모델에 대한 흥미로운 토폴로지로 간주함.

 

2. System overview

 

2.1. Recognizer framework

 

고려한 LRS2 말뭉치의 오디오 전용 작업에

예비 실험은 TM-CTC 프레임 워크의 단어 오류율 3.7 %

Transformer가 없는 하이브리드 CTC/attention 모델의 단어 오류율  8.3 %

nnet2 p-norm 네트워크 레시피로 달성 된 Kaldi 훈련 하이브리드 모델11.28 %.

다른 모델의 단어 오류율 보다 분명히 우수하다는 것을 보여준다.

 

따라서 TMCTC 모델은 AVSR에서 최적의 성능을 목표로하는 아키텍처로 선택함.

 

2.1.1. Encoders

그림에서 볼 수 있듯이

CTC,  transformer, TM-CTC 모델 간에 모두 공유되는 세 개의 인코더

(오디오 인코더, 비디오 인코더, 신뢰성 인코더)가 있다.

오디오 인코더는 두 부분으로 구성된 기존의 변압기 인코더이다. [7]

 

<오디오 인코더 설명 >

먼저, 시퀀스 길이를 NF (프레임 수)에서 NF / 4로 줄임으로써 계산 복잡성을 낮추고

특성을 공통 차원 datt = 256으로 투영하기 위해
서브 샘플링 블록으로 사용되는 두 개의 2D 컨볼 루션 레이어이다.

서브 샘플링 다음에는 12 개의 인코더 블록 스택이 이어지며,

각 블록은 multi-head self-attention와 fully connected feed-forward layer로 구성.

 

<비디오 인코더 설명>

[7]에서와 같이 비디오 특징은 미리 훈련 된 시공간적 시각 front-end (그림의 3D / 2D ResNet)에 의해 추출함.

이것은 [18]을 기반으로하며 multi-head self-attention layers의 스택도 포함.

 

오디오 및 비디오 특징의 프레임 속도가 다르기 때문에 Bresenham의 알고리즘 [19]을 사용하여 비디오 특징을 대략적으로 정렬

 

오디오 및 비디오 인코더의 multi-head self-attention layers에서 쿼리 Q, K , V는 동일함.

마지막으로, 모든 헤드 αj의 출력은 완전히 연결된 레이어에 의해 연결되고 투영.

selfattention block 이 출력은 인코더 출력 h i를 얻기 위해 피드 포워드 계층을 통과함.

 

2.1.2 Decode

 

TM-CTC 모델에는 각 스트림에 대해 두 개의 디코더가 있다. 

[7]에서와 같이 CTC 디코더는 6 개의 multi-head self-attention blocks을 포함함.

transformer decoder는 또한 6 개의 디코더 블록 스택으로 구성.

여기에서(K)와 (V)은 encoder 출력 hi이며, 둘 다 크기 (NF / 4) × 256이다.

(Q)는 이전 디코더 블록에서 제공되며 multi-head selfattention block에 의해 변환함.

Q는 NT × 256 크기이며, 여기서 NT는 전사의 길이 또는 토큰 수이다.

 

 

2.1.3. Reliability measures

정보 스트림의 시변 신뢰성을 시스템에 알리기 위해 신호 기반 신뢰성 측정 값 R을 추가로 포함.

신뢰도 측정 값에서 음성 정보를 추출하지 않기 때문에 서브 샘플링만함.

 

그림, Bresenham의 알고리즘이 시각적 신뢰도 측정 R^v에 추가로 적용

시각적 신뢰성 측정을 얻기 위해 우리는 OpenFace [20]를 얼굴 감지 및 얼굴 특징 추출에 사용함.

AU (Falal Action Unit) [21, 20]도 유용하며,  AU12, AU15, AU17, AU23, AU25, AU26을 포함 R^v.

오디오 기반 신뢰도 측정 R^a는 [15]에서와 같이 처음 5 개의 MFCC 계수로 구성

 

추정 된 신호 대 잡음비 (SNR)는 오디오 신호의 품질에 대한 프록시이다.

이 작업에서는 DeepXi [22]를 적용하여 프레임 당 SNR을 추정함.

 

피치 f0 및 첫 번째 시간 미분 인 ∆f0은 피치 고조파의 불충분한 평활화로 인해

MFCC 품질에 부정적인 영향을 미칠 수 있으므로 신뢰성을 나타냄 [23, 24].

발성 확률 (POV), f0, ∆f0은 [25]에 설명 된대로 계산됨.

 

3. fusion strategy

 

스트림 신뢰도 측정을 사용하여

스트림 별  postreriors를 joint posteriors로 결합하려고 한다.

그러나 TM-CTC의 S2S 부분은 도전 과제이다.

 

따라서 길이 NF / 4의 선형 시간 도메인에서 토큰 수인 길이 NT 로의 변환을 찾아야한다.

이를 해결하기 위해,

이제 시간적으로 일치하는 신뢰도 임베딩을 사용하여

모든 양식을 동적으로 결합하는 간단하고 효과적인 결정 융합 네트 (DFN)를 찾을 수 있다.

여기에서 모든 양식의 사후 확률은 입력 값이며 해당 신뢰도 임베딩은 CTC 및 S2S 모델 모두에 대해 다중 모드 logposteriors log p(s|o)를 추정하는 데 사용함.

CTC 디코더 용 DFN에서 처음 3 개의 hidden layer은 각각 8,192, 4,096, 512 단위를 가지며, 각각 ReLU 활성화 함수와 계층 정규화 (LN)를 사용함.

드롭 아웃 비율은 0.15이고, 활성화 함수로 tanh를 사용하여 각 방향에 대해 512 개의 메모리 셀이있는 3 개의 BLSTM 레이어가 이어짐.

마지막으로 fully connected (FC) layer은 데이터를 출력 차원으로 투영함.

log-softmax 함수는 추정 된 log-posteriors를 얻기 위해 적용함.

 

 DFN_s2s에 대해 BLSTM 레이어를 테스트했지만

이로 인해 overfitting이 발생하므로

sequence-to-sequence posteriors log ps2s(s|o)는 그림과 같이 순전히 feed-forward, non-recurrent architecture에서 얻는다.

 

4. EXPERIMENTAL SETUP

4.1. Dataset

Oxford-BBC Lip Reading Sentences 2 and 3 corpora [7, 26]는 모든 실험에 사용.

 

강력한 AVSR 시스템을 훈련하기 위해 훈련 데이터의 raw 오디오 신호에 오디오 데이터 증강을 인위적으로 적용.

소음 데이터는  MUSAN corpus [27]의 주변 소음 부분을 사용함.

각 오디오 신호는 -9dB에서 9dB 사이의 7 개의 SNR에서 선택한 무작위 SNR로 3dB 씩 증가함.

데이터 증대는 [18]에서와 같이 비디오 시퀀스에 대해서도 수행함.

즉, 무작위 자르기 및 50 % 확률로 수평 뒤집기 등.

 

서로 다른 음향 소음 환경에서 성능을 분석하고 시스템의 견고성을 확인하기 위해 유사한 음향 증강을 수행하지만 훈련 데이터에서 볼 수없는 새로운 조건을 테스트 데이터에 추가함.
주변 및 음악 사운드는 -12dB에서 12dB까지 3dB 단위로 사용함.

마찬가지로 테스트 세트의 시각적 데이터에 Gaussian blur 및 salt-and-pepper noise도 적용.

 

4.2. Feature extraction

 

오디오 모델은 pitch, delta pitch, 발성 확률과 함께 80 개의  log Mel features 을 사용.

이러한 83 차원 특징은 25ms 프레임 크기와 10ms 프레임 이동으로 추출.

96 × 96 픽셀의 회색조 관심 입 영역 (ROI)은 OpenFace를 통해 초당 25 프레임으로 감지 된 다음 사전 훈련 된 3D / 2D ResNet에 공급함.

 

4.3. Pretrained model

 

모든 모델은 LRS2 및 LRS3 사전 학습 세트에서 사전 학습

계산 노력을 절약하기 위해 [7]에 설명 된대로 사전 훈련 중에 ResNet 특성 추출의 매개 변수가 고정함.

두 번째 훈련 단계에서는 ResNet의 매개 변수를 포함한 모든 매개 변수가 LRS2 훈련 세트에서 미세 조정함.

제안 된 TM-CTC AVSR 모델에서 모델 매개 변수는 별도로 학습 된 오디오 전용 및 비디오 전용 모델로 초기화함.

 

4.4. Language model

 

언어 모델은 단방향 4-layer recurrent network에 의해 학습함.

각 레이어에는 2048 개의 units.

LibriSpeech 말뭉치 [28]에서 훈련 된 언어 모델을 사용함.

언어 모델은 한 번에 한 문자를 예측하고 이전 문자를 입력으로 받음.

언어 모델 매개 변수 θ는 0.5이다.

식의 α. (1) 및 (2)는 0.3으로 설정함.

h = 4 개의 attention heads를 사용함.

ESPnet에서 transformer-learning factor는 학습률을 제어

훈련 단계에서는 5.0으로, 미세 조정에서는 0.05로 설정함.

각각 32GB 메모리가있는 7 개의 Tesla V100 GPU를 사용함.

오디오 및 비디오 모델은 100 epoch 동안 훈련함.

시청각 모델 baseline과 제안 된 모델은 65 epoch에 대해 사전 훈련되고 10 epoch에 대해 미세 조정함.

 

 

5. Results

[7]의 transformercontext vectors를 결합하여

 오디오 및 비디오 스트림을 융합하고

CTC는 오디오 및 비디오 인코더 출력을 연결하여 오디오 및 비디오 스트림을 융합.

 

 

시청각 및 단일 모드 음성 인식 성능 (WER [%]).

AO : 오디오만.

VO : 비디오만.

AV : AV baseline [7].

DFN : 제안 된 DFN 융합.

m : music noise.

a : ambient noise.

vc : clean visual data.

gb : visual Gaussian blur.

sp : visual salt-and-pepper noise

 

[7] T. Afouras, J. Chung, A. Senior, O. Vinyals, and A. Zisserman, “Deep audio-visual speech recognition,” arXiv:1809.02108, 2018.

 

예상대로 오디오 전용 모델은 비디오 전용 모델보다 성능이 훨씬 뛰어남.

서로 다른 잡음 환경에서 기준선 융합 모델과 제안 된 DFN 융합 구조 간의 성능을 비교하면 제안 된 DFN 융합이 깨끗하고 모든 잡음 조건에서 분명히 바람직함.

 깨끗한 음향 조건에서도 제안 된 모델은 WER를 분명히 줄일 수 있다.

평균적으로 새로운 시스템은 오디오 전용 설정에 비해 43 %, 시청각 종단 간 기준에 비해 31 %의 상대적 단어 오류율 감소를 달성함.