https://arxiv.org/pdf/2104.09482v1.pdf
-Abstract-
End-to-end 음향 음성 인식은 빠르게 널리 보급되었으며, 많은 연구에서 유망한 결과를 보여준다.
특히 joint transformer/CTC model은 많은 작업에서 매우 우수한 성능을 제공한다.
그러나 시끄럽고 왜곡 된 조건에서는 성능이 여전히 현저하게 저하됨.
시청각 음성 인식은 이러한 열악한 조건에서 end-to-end 모델의 인식률을 크게 향상 시킬 수 있지만.
이러한 모델에서 음향과 시각에 대한 가능한 정보를 가장 잘 활용하는 방버은 분명하지 않다.
따라서 음향 및 시각 정보 스트림의 시변 신뢰성을 transformer/CTC 모델에 최적으로 알리는 방법에 대한 질문을 고려함.
attention mechanism의 시간적 효과를 고려한 decision fusion net에 신뢰성 정보를 통합하는 새로운 전략을 제안함.
이 접근 방식은 Lip Reading sentences 2와 3 (LRS2 and LRS3) 에 대해 최첨단 기준 모델에 비해 상당한 개선을 보임.
평균적으로 오디오 전용 설정에 비해 43%, audiovisual end-to-end baseline에는 31%의 상대적 단어 오류율 감소를 달성한다.
1. Introduction
최근에는 E2E (end-to-end) 자동 음성 인식 (ASR)이 많은 관심을 받고있다.
E2E 모델은 기존 하이브리드 ASR보다 구조가 훨씬 간단하지만 결과는 만족스럽지 않다 [1].
그 이유는 두 가지.
1) 하이브리드 모델의 언어 모델은 일반적으로 많은 양의 외부 텍스트 데이터에 대해 학습함.
반대로 대부분의 E2E 모델은 명시적 언어모델을 사용하지 않음.
2) [2]에 보고 된 바와 같이 E2E 모델, 특히 transformer[3]는 ovefiting 가능성이 더 높다.
이 작업에서는 모든 실험에 E2E 음성 처리 툴킷 ESPnet[4]을 사용함.
ESPnet은 SpecAugment [5]를 사용하여 과적합 문제를 극복하고
외부 언어 모델을 사용하여 E2E 모델을 디코딩 할 수 있으므로 두 가지 문제를 모두 해결.
TMCTC로 표시되는 CTC를 사용하는 S2S (Sequence-to-Sequence) transformer 모델이 실험에 사용.
공동 모델은 다양한 작업에서 높은 성능을 보여줌 [6, 7].
[8]에 설명 된대로 CTC는 특징과 전사를 명시적으로 정렬하는 방법을 학습하여 모델이 더 빠르게 수렴하는 데 도움.
따라서 훈련 단계에서는 CTC와 S2S 목표의 선형 조합을 목적 함수로 선택함.
s를 state로 , 상수 하이퍼 파라미터 α를 사용함.
디코딩하는 동안 RNN 언어 모델 pLM(s)도 사용함.
여기서 θ는 언어 모델의 기여도를 제어함.
일반적으로 사람들은 시끄러운 환경에서 말을들을 때
무의식적으로 서로의 입술을 읽어 더 많은 보충 정보를 얻는다.
는 인간의 언어 인식에 큰 도움이됨 [9].
McGurk 효과 [10]에서 보여주는 것처럼
깨끗한 말에서도 말하는 사람의 입술을 보는 것이 지각에 영향을 미친다.
기계 시청각 음성 인식 (AVSR)은 수년 동안 개발되다 [11].
그러나 하이브리드이든 E2E이든
현재의 AVSR은 여전히 이 2차 정보(오디오,비디오) 스트림을 최적으로 사용하지 않는 것 같다.
단어 오류율 (WER)이 노이즈 조건에서 여전히 분명히 감소하기 때문임 [7, 12].
TM-CTC 모델과 AVSR의 장점을 결합하여 이 문제를 완화함.
이를 위해 많은 연구에서 다중 모드 통합에 유익한 것으로 입증 된
추가 신뢰성 지표를 사용할 것을 제안함 [13, 14, 15].
TMCTC의 어텐션 모듈에서 발생하는 시간적 재정렬로 인해
이 조합을 달성하는 방법이 명확하지 않는다. (visual 어려움)
주어진 지점에서 attention 디코더의 초점과 일치하도록 신뢰성 정보를 정렬하는 새로운 접근 방식을 제안함.
이 접근 방식은 시청각 음성 인식에 효과적이며 더 광범위한 주의 기반 시계열 모델에 대한 흥미로운 토폴로지로 간주함.
2. System overview
2.1. Recognizer framework
고려한 LRS2 말뭉치의 오디오 전용 작업에
예비 실험은 TM-CTC 프레임 워크의 단어 오류율 3.7 %
Transformer가 없는 하이브리드 CTC/attention 모델의 단어 오류율 8.3 %
nnet2 p-norm 네트워크 레시피로 달성 된 Kaldi 훈련 하이브리드 모델의 11.28 %.
다른 모델의 단어 오류율 보다 분명히 우수하다는 것을 보여준다.
따라서 TMCTC 모델은 AVSR에서 최적의 성능을 목표로하는 아키텍처로 선택함.
2.1.1. Encoders
그림에서 볼 수 있듯이
CTC, transformer, TM-CTC 모델 간에 모두 공유되는 세 개의 인코더
(오디오 인코더, 비디오 인코더, 신뢰성 인코더)가 있다.
오디오 인코더는 두 부분으로 구성된 기존의 변압기 인코더이다. [7]
<오디오 인코더 설명 >
먼저, 시퀀스 길이를 NF (프레임 수)에서 NF / 4로 줄임으로써 계산 복잡성을 낮추고
특성을 공통 차원 datt = 256으로 투영하기 위해
서브 샘플링 블록으로 사용되는 두 개의 2D 컨볼 루션 레이어이다.
서브 샘플링 다음에는 12 개의 인코더 블록 스택이 이어지며,
각 블록은 multi-head self-attention와 fully connected feed-forward layer로 구성.
<비디오 인코더 설명>
[7]에서와 같이 비디오 특징은 미리 훈련 된 시공간적 시각 front-end (그림의 3D / 2D ResNet)에 의해 추출함.
이것은 [18]을 기반으로하며 multi-head self-attention layers의 스택도 포함.
오디오 및 비디오 특징의 프레임 속도가 다르기 때문에 Bresenham의 알고리즘 [19]을 사용하여 비디오 특징을 대략적으로 정렬
오디오 및 비디오 인코더의 multi-head self-attention layers에서 쿼리 Q, K , V는 동일함.
마지막으로, 모든 헤드 αj의 출력은 완전히 연결된 레이어에 의해 연결되고 투영.
selfattention block 의 이 출력은 인코더 출력 h i를 얻기 위해 피드 포워드 계층을 통과함.
2.1.2 Decode
TM-CTC 모델에는 각 스트림에 대해 두 개의 디코더가 있다.
[7]에서와 같이 CTC 디코더는 6 개의 multi-head self-attention blocks을 포함함.
transformer decoder는 또한 6 개의 디코더 블록 스택으로 구성.
여기에서(K)와 (V)은 encoder 출력 hi이며, 둘 다 크기 (NF / 4) × 256이다.
(Q)는 이전 디코더 블록에서 제공되며 multi-head selfattention block에 의해 변환함.
Q는 NT × 256 크기이며, 여기서 NT는 전사의 길이 또는 토큰 수이다.
2.1.3. Reliability measures
정보 스트림의 시변 신뢰성을 시스템에 알리기 위해 신호 기반 신뢰성 측정 값 R을 추가로 포함.
신뢰도 측정 값에서 음성 정보를 추출하지 않기 때문에 서브 샘플링만함.
그림, Bresenham의 알고리즘이 시각적 신뢰도 측정 R^v에 추가로 적용
시각적 신뢰성 측정을 얻기 위해 우리는 OpenFace [20]를 얼굴 감지 및 얼굴 특징 추출에 사용함.
AU (Falal Action Unit) [21, 20]도 유용하며, AU12, AU15, AU17, AU23, AU25, AU26을 포함 R^v.
오디오 기반 신뢰도 측정 R^a는 [15]에서와 같이 처음 5 개의 MFCC 계수로 구성
추정 된 신호 대 잡음비 (SNR)는 오디오 신호의 품질에 대한 프록시이다.
이 작업에서는 DeepXi [22]를 적용하여 프레임 당 SNR을 추정함.
피치 f0 및 첫 번째 시간 미분 인 ∆f0은 피치 고조파의 불충분한 평활화로 인해
MFCC 품질에 부정적인 영향을 미칠 수 있으므로 신뢰성을 나타냄 [23, 24].
발성 확률 (POV), f0, ∆f0은 [25]에 설명 된대로 계산됨.
3. fusion strategy
스트림 신뢰도 측정을 사용하여
스트림 별 postreriors를 joint posteriors로 결합하려고 한다.
그러나 TM-CTC의 S2S 부분은 도전 과제이다.
따라서 길이 NF / 4의 선형 시간 도메인에서 토큰 수인 길이 NT 로의 변환을 찾아야한다.
이를 해결하기 위해,
이제 시간적으로 일치하는 신뢰도 임베딩을 사용하여
모든 양식을 동적으로 결합하는 간단하고 효과적인 결정 융합 네트 (DFN)를 찾을 수 있다.
여기에서 모든 양식의 사후 확률은 입력 값이며 해당 신뢰도 임베딩은 CTC 및 S2S 모델 모두에 대해 다중 모드 logposteriors log p(s|o)를 추정하는 데 사용함.
CTC 디코더 용 DFN에서 처음 3 개의 hidden layer은 각각 8,192, 4,096, 512 단위를 가지며, 각각 ReLU 활성화 함수와 계층 정규화 (LN)를 사용함.
드롭 아웃 비율은 0.15이고, 활성화 함수로 tanh를 사용하여 각 방향에 대해 512 개의 메모리 셀이있는 3 개의 BLSTM 레이어가 이어짐.
마지막으로 fully connected (FC) layer은 데이터를 출력 차원으로 투영함.
log-softmax 함수는 추정 된 log-posteriors를 얻기 위해 적용함.
DFN_s2s에 대해 BLSTM 레이어를 테스트했지만
이로 인해 overfitting이 발생하므로
sequence-to-sequence posteriors log ps2s(s|o)는 그림과 같이 순전히 feed-forward, non-recurrent architecture에서 얻는다.
4. EXPERIMENTAL SETUP
4.1. Dataset
Oxford-BBC Lip Reading Sentences 2 and 3 corpora [7, 26]는 모든 실험에 사용.
강력한 AVSR 시스템을 훈련하기 위해 훈련 데이터의 raw 오디오 신호에 오디오 데이터 증강을 인위적으로 적용.
소음 데이터는 MUSAN corpus [27]의 주변 소음 부분을 사용함.
각 오디오 신호는 -9dB에서 9dB 사이의 7 개의 SNR에서 선택한 무작위 SNR로 3dB 씩 증가함.
데이터 증대는 [18]에서와 같이 비디오 시퀀스에 대해서도 수행함.
즉, 무작위 자르기 및 50 % 확률로 수평 뒤집기 등.
서로 다른 음향 소음 환경에서 성능을 분석하고 시스템의 견고성을 확인하기 위해 유사한 음향 증강을 수행하지만 훈련 데이터에서 볼 수없는 새로운 조건을 테스트 데이터에 추가함.
주변 및 음악 사운드는 -12dB에서 12dB까지 3dB 단위로 사용함.
마찬가지로 테스트 세트의 시각적 데이터에 Gaussian blur 및 salt-and-pepper noise도 적용.
4.2. Feature extraction
오디오 모델은 pitch, delta pitch, 발성 확률과 함께 80 개의 log Mel features 을 사용.
이러한 83 차원 특징은 25ms 프레임 크기와 10ms 프레임 이동으로 추출.
96 × 96 픽셀의 회색조 관심 입 영역 (ROI)은 OpenFace를 통해 초당 25 프레임으로 감지 된 다음 사전 훈련 된 3D / 2D ResNet에 공급함.
4.3. Pretrained model
모든 모델은 LRS2 및 LRS3 사전 학습 세트에서 사전 학습
계산 노력을 절약하기 위해 [7]에 설명 된대로 사전 훈련 중에 ResNet 특성 추출의 매개 변수가 고정함.
두 번째 훈련 단계에서는 ResNet의 매개 변수를 포함한 모든 매개 변수가 LRS2 훈련 세트에서 미세 조정함.
제안 된 TM-CTC AVSR 모델에서 모델 매개 변수는 별도로 학습 된 오디오 전용 및 비디오 전용 모델로 초기화함.
4.4. Language model
언어 모델은 단방향 4-layer recurrent network에 의해 학습함.
각 레이어에는 2048 개의 units.
LibriSpeech 말뭉치 [28]에서 훈련 된 언어 모델을 사용함.
언어 모델은 한 번에 한 문자를 예측하고 이전 문자를 입력으로 받음.
언어 모델 매개 변수 θ는 0.5이다.
식의 α. (1) 및 (2)는 0.3으로 설정함.
h = 4 개의 attention heads를 사용함.
ESPnet에서 transformer-learning factor는 학습률을 제어
훈련 단계에서는 5.0으로, 미세 조정에서는 0.05로 설정함.
각각 32GB 메모리가있는 7 개의 Tesla V100 GPU를 사용함.
오디오 및 비디오 모델은 100 epoch 동안 훈련함.
시청각 모델 baseline과 제안 된 모델은 65 epoch에 대해 사전 훈련되고 10 epoch에 대해 미세 조정함.
5. Results
[7]의 transformer는 context vectors를 결합하여
오디오 및 비디오 스트림을 융합하고
CTC는 오디오 및 비디오 인코더 출력을 연결하여 오디오 및 비디오 스트림을 융합.
시청각 및 단일 모드 음성 인식 성능 (WER [%]).
AO : 오디오만.
VO : 비디오만.
AV : AV baseline [7].
DFN : 제안 된 DFN 융합.
m : music noise.
a : ambient noise.
vc : clean visual data.
gb : visual Gaussian blur.
sp : visual salt-and-pepper noise
[7] T. Afouras, J. Chung, A. Senior, O. Vinyals, and A. Zisserman, “Deep audio-visual speech recognition,” arXiv:1809.02108, 2018.
예상대로 오디오 전용 모델은 비디오 전용 모델보다 성능이 훨씬 뛰어남.
서로 다른 잡음 환경에서 기준선 융합 모델과 제안 된 DFN 융합 구조 간의 성능을 비교하면 제안 된 DFN 융합이 깨끗하고 모든 잡음 조건에서 분명히 바람직함.
깨끗한 음향 조건에서도 제안 된 모델은 WER를 분명히 줄일 수 있다.
평균적으로 새로운 시스템은 오디오 전용 설정에 비해 43 %, 시청각 종단 간 기준에 비해 31 %의 상대적 단어 오류율 감소를 달성함.