논문(papers)/음성인식

Deep Audio-Visual Speech Recognition

dnlwldnl 2021. 6. 7. 15:19

https://arxiv.org/pdf/1809.02108.pdf

-Abstract-

이 작업의 목표는 음성 유무에 관계 없이 말하는 얼굴이 말하는 구와 문장을 인식하는 것

제한된 수의 단어 나 구를 인식하는 데 중점을 둔 이전 작업과 달리, 제한 없는 자연어 문장과 야생 비디오와 같은 open-world problem로 입술 읽기를 다루고 있다.

 

기여 :

1. 입술 판독을 위해 두 모델을 비교 (CTC loss vs. sequece-to-sequence loss.)

   두 모델은 transformer self-attetnion architecture로 구축.

2. 특히 오디오 신호에 잡음이 있을 때 입술 읽기가 오디오 음성 인식을 보완하는 정도를 조사함.

3. 영국 TV의 수천 개의 자연어 문장으로 구성 된 시청각 음서인식을 위한 새로운 DB인 LRS2-BBC를 소개하고 공개적으로 출시.

 

 

1. Introduction

시각 정보만으로 말하는 내용을 인식하는 능력인 LIP READING은 인상적인 기술이며 초보자에게는 매우 도전적이다.

동음 이의어 (정확히 동일한 립 시퀀스를 생성하는 다른 문자 (예 :‘p’및‘b’))로 인해 단어 수준에서 본질적으로 모호함.

그러나 이러한 모호성은 문장에서 인접한 단어의 컨텍스트 및 / 또는 언어 모델을 사용하여 어느 정도까지 해결할 수 있다. 

 

lip read의 응용 프로그램은 다음과 같다.

a) 시끄러운 환경에서 전화로 지시나 메시지를 "받아쓰기"한다.

b) 보관용 silent films(옛날 소리 없는 영화들)를 필사하고 다시 더빙.

c) 다중 화자 동시에 음성 해결.

d) 일반적으로 자동 음성 인식의 성능을 향상. 

 

이러한 자동화가 이제 가능한다는 것은 컴퓨터 비전 작업 전반으로 잘 알려진 두가지 개발 때문이다.

deep neural network models [30, 44, 47] / large scale dataset [41].

이 경우 lip reading models은 음성 인식과 기계 번역을 위해 개발된 최신 인코더-디코더 아키텍처를 기반으로 함 [5, 7, 22, 23, 46].

 

< 목적 >

논문의 목적은 lip reading 문장를 위한 전사 architectures을 개발.

두 모델 비교. CTC loss [22] vs. sequence-to-sequence loss [9,46].

두 모델 모두 transformer self-attention architecture [49] 기반으로 두 손실의 장단점을 비교.

이 논문에서 모델을 훈련하고 평가하기 위해 개발한 데이터 셋은 말한 내용의 자막과 함께 말하는 얼굴이 있는 수천 시간 분량의 비디오를 기반으로 함.

 

또한 입술 읽기가 오디오 기반 음성 인식에 어떻게 기여할 수 있는지 조사.

이 기여에 대한 많은 문헌이 있는데, 특히 시끄러운 환경에서일부 파생 된 오디오 측정청각 장애인 또는 청각 장애인을 위한 입술 읽기에 기여.

이 측면을 조사하기 위해, 오디오 및 시각적 입력에서 문자를 인식하는 모델을 훈련시킨 다음 오디오 채널을 체계적으로 방해.

모델은 문자 수준에서 출력함.

CTC의 경우 이러한 출력 서로 독립적. 

 

sequence-to-sequence loss의 경우

언어 모델이 암시적으로 학습되고

아키텍처는 시각적 입력만,

오디오 입력만,

또는 둘 다에서 작동 할 수 있는 새로운 dual attention mechanism을 통합.

 

두 모델 모두 선택적으로 외부 언어 모델을 통합 할 수 있는 빔 검색으로 디코딩.

이 논문은 학회 논문 [12]을 기반으로함.

원논문의 WLAS 모델을 Transformer 기반 모델의 두 가지 변형으로 대체 [49].

하나의 변형은 [2]에 게시되었으며 두 번째 변형 (CTC 손실 사용)은 이 논문의 원래 기여.

시각적 frontend를 [45]에서 제안한 ResNet 기반으로 업데이트.

 

2. Background

2.1 CTC vs sequence-to-sequence architectures

대부분의 경우 sequence 예측을 위한 end-to-end learning approaches는 두가지 유형으로 나눌 수 있다.

 

1) input sequence (e.g. audio)가 주어진 경우 각 output symbol (e.g. phonemes)의 가능성을 출력하는 emission model로 neural network을 사용함.

이러한 방법은 일반적으로 디코딩 부분에 Hidden Markov Model [25]을 사용하여 second phase를 사용.

번형 버전은 CTC [22]를 사용하여 모델이 프레임 별 라벨을 예측한 다음 프레임별 예측과 출력 시퀀스 간의 최적 정렬을 찾는다.

하지만 CTC의 주요 약점은 출력 레이블이 서로 조건화 되지 않기 때문에 (각 단위가 독립적이라고 가정 함, 옆 프레임간문맥 상황 인지 x ) 

따라서 언어 모델이 사후 처리 단계로 사용함.

2 단계 과정을 공동으로 훈련하기 위한 몇 가지 대안이 제안되었다는 점에 유의 [21].

이 접근 방식의 또 다른 한계는 입력 시퀀스와 출력 시퀀스간에 단조로운 순서를 가정한다는 것.

예를 들어 이 가정은 ASR 및 전사에 적합하지만 기계 번역에는 적합하지 않다. (순서가 맞지 않는다.)

 

2) 출력 문장을 예측하기 전에 먼저 모든 입력 sqeunce를 읽는 sequence-to-sequence models [9, 46] (seq2seq).

많은 논문에서 음성 인식에 이 접근 방식을 채택함 [10, 11].

예를 들어, Chan et al. [7]은 오디오 신호를 문자로 변환하는  sequence-to-sequence method 방법을 제안.

Sequence-to-sequence는 이전 출력 1,. . , t 1에서 조건이 지정된 시간 t (예 : 문자 또는 단어)에서

출력 기호를 디코딩. (입력 전체 문장을 다 보고 디코더)

 

따라서 CTC 기반 모델과 달리 모델은 출력 기호를 통해 언어 모델을 암시적으로 학습하므로 추가 처리가 필요하지 않음.

그러나, sequence-to-sequence models의 디코딩에도 외부 언어 모델을 통합하는 것이 유익하다는 것이 밝혀짐. [7, 26].

이렇게하면 음향 모델 훈련에 사용되는 제한된 정렬 데이터보다 훨씬 풍부한 자연어 정보를 포함하는 더 큰 텍스트 전용 말뭉치를 활용할 수 있음.

아키텍처와 관련하여 CTC 기반 또는 seq2seq 접근 방식은 전통적으로 RNN 네트워크에 의존했지만 최근에는 순수 convolutional models로 전환됨 [6].

예를 들어, CTC [51, 55] 또는 단순화 된 변형 [16, 32, 54]을 사용하는 ASR에는 fully convolutional networks가 사용함.

 

2.2 Related works

 

Lip reading.

비 딥 러닝 방법을 사용하여 입술 읽기에 대한 많은 작업이 있다. 

이러한 방법은 [56]에서 철저히 검토되며 여기서 반복하지 않음.

많은 논문에서 CNN (Convolutional Neural Networks)을 사용하여 전체 단어 나 문장을 인식하는 대신 still images에서 phonemes [37] 또는 visemes [29]을 예측.

phonemes는 음성을 집합적으로 구성하는 가장 작은 구별 가능한 소리 단위.

visemes은 시각적으로 동일

 

전체 단어를 인식하기 위해 Petridis et al. [39] 이산 코사인 변환 (DCT) 및 깊은 병목 특징 (DBF)에 대해 LSTM 분류기를 훈련.

마찬가지로 Wand et al. [50]. 짧은 문구를 인식하기 위해 HOG 입력 기능이 있는 LSTM을 사용.

입술 읽기의 훈련 데이터 부족은 아마도 handcraft features의 지속적인 사용에 기여함.
기존 데이터 세트는 주제 수가 적은 동영상과 제한된 어휘 (<60 단어)로 구성되어  실험에 매우 제한적.

Chung과 Zisserman [13]은 텔레비전 방송에서 얼굴을 사용하여 500 단어의 어휘 크기로 LRW 데이터 세트를 조합하여 작은 어휘 문제를 해결.

그러나 모든 단어 수준 분류 작업과 마찬가지로 단어 경계를 미리 알아야한다는 점을 감안할 때 설정은 여전히 ​​현실 세계와 거리가 멀다.

Assael et al. [4]는 CNN과 LSTM 기반 네트워크와 (CTC) [22]를 사용하여 라벨링을 계산.

이것은 제한된 문법과 GRID 데이터 세트의 51 개 단어 어휘에 대한 강력한 화자 독립적 성능을 보고함 [17].

LipNet [4]보다 더 깊은 아키텍처는 [45]에 의해 사용되며, 그는 더 강력한 표현을 추출하기 위해 3D convolutions이 있는 residual network를 제안.

네트워크는 LRW 데이터 세트의 단어를 인식하기 위해 crossentropy loss로 훈련.

여기에서 표준 ResNet 아키텍처 [24]는 첫 번째 convolutional 및 pooling 블록을 2D에서 3D로 변경하여 3D 이미지 시퀀스를 처리하도록 수정.

이전 작업 [12]에서 [7]의 LAS ASR 모델을 기반으로 WLAS 시퀀스 대 시퀀스 모델을 제안함. ((the acronym WLAS are for Watch, Listen, Attend and Spell, and LAS for Listen, Attend and Spell).

WLAS 모델에는 시각적 (입술) 스트림을 위한 것과 오디오 (음성) 스트림을 위한 두 가지 주의 메커니즘이 존재.

말한 문장을 문자로 변환하고 시각 입력만, 오디오만 또는 둘 다를 처리 할 수 ​​있다.

독립 및 동시 작업에서 Shillingford et al. [43], 음소 확률을 출력하고 CTC 손실로 훈련 된 네트워크를 사용하는 입술 읽기 파이프 라인을 설계함.

추론 시간에 그들은 유한 상태 변환기에 기반한 디코더를 사용하여 음소 분포를 단어 시퀀스로 변환함.

이 네트워크는 YouTube 동영상으로 구성된 매우 큰 규모의 입술 읽기 데이터 세트로 훈련되었으며 놀라운 40.9 %의 단어 오류율을 달성함.

 

Audio-visual speech recognition.

AVSR (Audio-Visual Speech Recognition)과 입술 읽기의 문제는 밀접하게 연결.

Mroueh et al. [36]은 대규모 비공개 시청각 데이터 세트를 사용하여 음소 분류를 수행하기 위해 feed-forward Deep Neural Networks  (DNN)을 사용.

입술 읽기와 마찬가지로 실제 설정으로 일반화되는 AVSR 시스템을 개발하려는 시도는 거의 없었다.

 

 

3. Architectures

 

최근 제안 된 Transformer 모델 [49]을 기반으로 두 가지 변형을 탐색하는 시청각 음성 인식을 위한 모델 아키텍처를 설명.

i) seq2seq 방식으로 훈련하기 위한 encoderdecoder attention structure.

ii) CTC loss이 있는 훈련을 위한 self-attention blocks.

 

(a) Common encoder:

시각적 이미지 시퀀스는 시공간 ResNet에 의해 처리되는 반면,

오디오 특징은 오디오 신호에 STFT (Short Time Fourier Transform)를 적용하여 얻은 스펙트로그램.

그런 다음 각 양식은 별도의 Transformer 인코더로 인코딩.

 

(b) TM-seq2seq: a Transformer model.

모든 decoder layer에서 비디오 (V) 및 오디오 (A) 인코딩은 독립적인 multi-head attention modules에 의해 별도로 처리.

Vc Ac 두 가지 양식에 대해 생성 된 컨텍스트 벡터는 각각 채널별로 연결되어 피드 포워드 레이어에 공급

self-attention layers의 경우 항상 Q = K = V이고

encoder-decoder attentions의 경우 K = V는 인코딩 (V 또는 A)이고 Q는 이전 계층의 출력 (또는 첫 번째 계층의 경우, 이전 디코딩 단계에서 네트워크 예측).

 

(c) TM-CTC:

모든 입력 프레임에 대해 CTC 사후 확률을 생성하는  self-attention feed forward layers 스택으로 구성된 모델인 Transformer CTC.

 

일반 모델은 비디오 (V) 및 오디오 (A)에 대해 하나씩 두 개의 입력 스트림을 수신함.

 

 

3.1 Audio Features

음향 표현을 위해 16kHz 샘플 속도에서 40ms window와 10ms hop 길이로 계산 된 321 차원 스펙트럼 크기를 사용함.

비디오는 25fps (프레임 당 40ms)로 샘플링되므로 모든 비디오 입력 프레임은 4개의 음향 특징 프레임에 해당.

 

안정된 CTC 훈련 [8, 42]에 일반적으로 사용되는 입력 시퀀스 길이를 줄이면서

동시에 두 양식 모두에 대한 공통 시간 척도를 달성하기 위해

오디오 특징을 4 개의 그룹으로 연결.

 

 

3.2 Vision Module (VM)

입력 이미지는 25fps로 샘플링 된 224 × 224 픽셀이며 화자의 얼굴을 포함함.

그림과 같이 입 주변 영역을 덮는 112x112 패치를 자른다.

LRS2-BBC 데이터 세트를 만드는 데 사용 된 비디오의 원본 스틸 이미지. 두 개의 다른 스피커에서 입이 움직입니다. 네트워크는 빨간색 사각형 내부의 영역을 봅니다

입술 움직임을 나타내는 시각적 특징을 추출하기 위해 [45]에 기반한 시공간적 시각적 front-end를 사용

네트워크는 입력 이미지 시퀀스에 5 프레임의 필터 너비를 사용하여

3D convolutions을 적용한 다음

깊이에 따라 공간 차원을 점진적으로 감소시키는 2D ResNet을 적용.

T × H × W 프레임의 입력 시퀀스의 경우 출력은 

 (즉, 시간 해상도가 유지됨)이며 공간 차원에 걸쳐 평균 풀링되어 512 차원을 생성.

모든 입력 비디오 프레임에 대한 특징 벡터.

 

 

 

3.3 Common self-attention Encoder

변형 모두 동일한 self-attention-based encoder architecture를 사용.

인코더는 multi-head selfattention layers의 스택으로, 입력 텐서는 주의에 대한 쿼리, 키 및 값 역할을 동시에 수행.

그림 (a)와 같이 각 양식에 대해 별도의 인코더가 사용.

입력의 시퀀스 순서에 대한 정보는 정현파 함수의 형태로 고정 위치 임베딩을 통해 모델에 제공.

 

 

3.4 Sequence-to-sequence Transformer (TM-seq2seq)

 

이 변형에서는 비디오 및 오디오 임베딩에 참여하기 위해 별도의 attention heads가 사용.

모든 디코더 레이어에서 결과 비디오 및 오디오 컨텍스트는 채널 차원에 걸쳐 연결되고 feedforward block으로 전파.

두 양식 모두에 대한 주의 메커니즘은 이전 디코딩 계층의 출력 (또는 첫 번째 계층의 경우 디코더 입력)을 쿼리하여 수신함.

디코더는 Ground Truth 레이블과 직접 일치하고 교차 엔트로피 손실로 훈련 된 문자 확률을 생성.

 

 

3.5 CTC Transformer (TM-CTC)

 

TM-CTC 모델은 비디오 및 오디오 인코딩을 연결하고 인코더에서 사용되는 것과 동일한 self-attention / feedforward blocks 스택을 통해 결과를 전파.

네트워크의 출력은 모든 입력 프레임에 대한 CTC 사후 확률이며 전체 스택은 CTC loss로 훈련.

 

 

3.6 External Language Model (LM)

두 변형을 디코딩하기 위해 추론 중에 문자 수준 언어 모델을 사용.

이것은 각각 1024 개의 LSTM 셀로 구성된 4 개의 단방향 계층이있는 순환 네트워크.

언어 모델은 한 번에 하나의 문자를 예측하도록 훈련되어 이전 문자만 입력으로 받는다.

두 모델에 대한 디코딩은 LM 로그 확률이 ​​얕은 융합을 통해 모델의 출력과 결합되는 왼쪽에서 오른쪽 빔 검색으로 수행됨 [26].

 

3.7 Single modality models

시청각 모델은 두 양식 중 하나만있을 때 사용.

TM-seq2seq에 대한 attention vectors 또는 TM-CTC에 대한 인코딩을 연결하는 대신 사용 가능한 양식의 벡터만 사용

 

 

4. Dataset

시청각 음성 인식을 위해 대규모 데이터 세트인 LRS2-BBC를 자동으로 생성하기 위한 다단계 파이프 라인을 설명.

이 파이프 라인을 사용하여 해당 face 트랙과 함께 수천 시간 분량의 음성 문장과 구문을 수집할 수 있다.

Dragon ’s Den에서 Top Gear 및 Countryfile에 이르기까지 다양한 BBC 프로그램을 사용.

 

처리 파이프 라인은 그림에 요약됨.

 

대부분의 단계는 [13]과 [14]에 설명 된 방법을 기반으로 하지만

여기서는 비디오 준비 방법에 대한 간략한 스케치를 제공.

 

Single Shot MultiBox Detector (SSD) [33]에 기반한 CNN 얼굴 감지기는 개별 프레임에서 얼굴 모양을 감지하는 데 사용.

이전 작업에서 사용 된 HOG 기반 감지기 [27]와 달리

SSD는 모든 각도에서 얼굴을 감지하고

더 빠른 실행과 함께 더 강력한 성능을 보여줌.

 

샷 경계는 연속 된 프레임에 걸쳐 컬러 히스토그램을 비교하여 결정함 [31].

KLT [34]와 같은 특징 기반 추적기는 시점에 극단적인 변화가있을 때

종종 실패하기 때문에 각 샷 내에서 얼굴 추적은 위치를 기반으로 얼굴 감지에서 생성함.

 

Audio and text preparation.

텔레비전의 자막오디오와 동기화되어 broadcast되지 않는다.

Penn Phonetics Lab Forced Aligner [53]는 자막을 오디오 신호에 강제 정렬하는 데 사용됨.

transcript가 말 그대로이지 않기 때문에 정렬에 오류가 있다.

따라서 정렬 된 레이블은 상용 IBM Watson Speech to Text 서비스를 확인하여 필터링.

 

AV sync and speaker detection.

오디오와 영상 스트림이 최대 1 초까지 동기화되지 않아

문장에 해당하는 페이스 트랙을 추출 할 때 문제가 발생함.

[14]에서 설명한 2- 스트림 네트워크의 멀티 뷰 적응 [15]두 스트림을 동기화하는 데 사용함.

 

또한 동일한 네트워크를 사용하여

오디오와 일치하는 얼굴의 입술 움직임을 확인하고

일치하는 것이 없으면 클립이 음성 해설로 거부함.

 

Sentence extraction.

비디오는 대본의 구두점을 사용하 개별 sentences/ phrases으로 나눈다.

문장은 마침표, 쉼표 및 물음표로 구분.

GPU 메모리 제약으로 인해 100 자 또는 10 초로 잘림.

우리는 어휘 크기에 제한을 두지 않는다.

RS2-BBC 데이터 세트는 방송 날짜에 따라 개발 (train / val) 및 테스트 세트나눔.

또한 데이터 세트에는development 세트에 포함 된 전체 문장보다 짧거나 길 수 있는  문장 발췌가 포함 된 "사전 학습" 세트가 있으며 모든 단어의 정렬 경계로 주석이 추가됨.

† : 라이선스 제한으로 인해 일반인이 이용할 수 없습니다.

이 표는 또한 'Lip Reading Sentences'(LRS) 시리즈 데이터 세트를 기존의 가장 큰 공개 데이터 세트와 비교함.

LRS2-BBC 외에도 MV-LRS 과 LRS3-TED를 교육 및 평가에 사용함.

외부 언어 모델 학습을 위한 데이터 세트임.

각 시청각 데이터 세트의 평가에 사용되는 언어 모델을 학습시키기 위해

데이터 세트의 학습 세트가 생성 된 동영상의 전체 자막이 포함 된 텍스트 코퍼스를 사용함.

텍스트 전용 말뭉치에는 2,600 만 단어가 포함.

 

 

5 TRAINING STRATEGY

제한된 양의 데이터를 최대한 활용하여 모델을 효과적으로 훈련시키는데 사용되는 전략을 설명.

교육은 4 단계로 진행 :

1)  visual front-end module이 훈련함.

2) 비전 모듈을 사용하여 모든 훈련 데이터에 대해 시각적 특징이 생성함.

3) sequence processing module은 고정 된 시각적 특징에 대해 학습됨.

4) 전체 네트워크가 end-to-end 훈련.

 

5.1 Pre-training visual features

 

MVLRS [15] 데이터 세트에서 발췌 한 단어에 대한 시각적 프런트 엔드를 사전 훈련함.

2-layer temporal convolution 백엔드를 사용하여 [45]와 유사한 단어 레이블이 있는 모든 클립을 분류함.

수평 뒤집기, 임의 프레임 제거 [4, 45], 공간 차원에서 최대 ± 5 픽셀, 시간 차원에서 ± 2 프레임의 임의 이동의 형태로 데이터 증가를 수행함.

 

5.2 Curriculum learning

 

시퀀스 대 시퀀스 학습은 시간 단계 수가 많을 때 매우 느리게 수렴하는 것으로 보고 됨.
디코더가 처음에 모든 입력 단계에서 관련 정보를 추출하는 데 어려움을 겪기 때문이다 [7].

 

단일 단어 예제에 대해서만 학습을 시작한 다음

네트워크가 학습함에 따라 시퀀스 길이를 늘리는 새로운 전략을 도입

이러한 짧은 시퀀스는 데이터 세트에있는 긴 문장의 일부이다.

 

교육 세트의 수렴 속도는 몇 배 더 빠르지만 커리큘럼은 데이터를 자연스럽게 늘리는 방법으로 작동하기 때문에 과적 합도 크게 줄임.

 

네트워크는 먼저 MV-LRS, LRS2-BBC 및 LRS3-TED의 사전 학습 세트의 고정 특징에 대해 학습함.

시퀀스를 최대 길이로 제로 패딩하여 발화 길이의 차이를 처리함.

평가중인 세트에 따라LRS2- BBC 또는 LRS3-TED의 train-val 세트에서 엔드 투 엔드를 개별적으로 미세 조정함.

 

5.3 Training with noisy audio & multi-modal training

 

오디오 전용 모델은 처음에 깨끗한 입력 오디오로 훈련됨.

다중 모드 입력이 있는 네트워크는 종종 모드 중 하나에 의해 지배 될 수 있다. [19]

 

본 논문의 경우

음성 인식이 입술 읽기보다 훨씬 쉬운 문제이기 때문에

시청각 모델의 경우 오디오 신호가 지배적이라는 것을 관찰함.

 

이를 방지하기 위해 훈련 중에 확률 pn = 0.25로 오디오 스트림에 0dB SNR의 babble noise을 추가함.

오디오 노이즈에 대한 내성을 평가하고 개선하기 위해, 0dB SNR의 babble noise는

노이즈가 항상 원본 오디오에 추가되는 설정에서

오디오 전용 및 시청각 모델을 미세 조정함.

 

LRS2-BBC 데이터 세트에서 20 개의 서로 다른 오디오 샘플의 신호를 혼합하여 babble noise 샘플을 합성함.

 

 

5.4 Implementation details

 

네트워크의 출력 크기는 40이며

 알파벳 26 자, 10 자리 숫자, [space] [pad] 토큰을 포함.

TM-seq2seq의 경우 추가 [sos] 토큰을 사용하고 TM-CTC의 경우 [blank] 토큰을 사용함.

데이터 세트의 필사본에 포함되지 않으므로 구두점을 모델링하지 않는다.

 

TM-seq2seq는 teacher forcing을 사용하여 훈련함.

-디코더에 대한 입력으로 이전 디코딩 단계의 ground truth을 제공하고, 추론 동안 우리는 디코더 예측을 피드백함.

 TensorFlow 라이브러리 [1]를 기반으로하며 11GB 메모리가있는 단일 GeForce GTX 1080 Ti GPU에서 훈련함.

 

네트워크는 ADAM 옵티 마이저 [28]를 사용하여 기본 매개 변수와 10-4의 초기 학습률을 사용하여 훈련되며, 이는 검증 오류가 정체 될 때마다 2 배씩 감소하여 최종 학습률 10-6까지 감소함.

모든 모델에 대해 p = 0.1 인 dropout과 label smoothing을 사용.

 

 

6 EXPERIMENTS

 

각 데이터 세트의 독립 테스트 세트에서 LRS2-BBC 및 LRS3-TED에 대해 미세 조정 된 모델을 평가함.

 

Test time augmentation.

추론하는 동안 모든 비디오 샘플에 대해 9 개의 임의 변환 (비디오 프레임의 수평 반전 및 최대 ± 5 픽셀의 공간 이동)을 수행하고 원본에 추가로 교란 된 시퀀스를 네트워크를 통해 전달함.

TM-seq2seq의 경우 결과 로짓을 평균하고 TM-CTC의 경우 시각적 특징을 평균함.

 

Beam search.

디코딩은 TM-Seq2seq의 경우 폭 35, TM-CTC의 경우 100의 빔 검색으로 수행함.

(값은 LRS2-BBC의 train-val 분할에서 유지 된 검증 세트에서 결정됨.

 

Evaluation protocol.

 모든 실험에 대해 WER = (S + D + I) / N으로 정의 된 단어 오류율 (WER)을 보고함.

여기서 S, D 및 I는 각각 대체, 삭제, 삽입 횟수이다.

N은 참조의 단어 수.

 

Experimental setup.

먼저 비디오만 입력으로 사용되는 입술 읽기 결과를 제시함.

그런 다음 비디오와 오디오가 적절하게 동기화 된 것으로 가정되는 시청각 음성 인식을 위해 전체 모델을 사용.

시끄러운 환경에서 모델의 견고성을 평가하기 위해 babble noise이 발화에 인위적으로 추가되는 환경에서 훈련하고 테스트함.

동기화되지 않은 비디오 및 오디오에 대한 몇 가지 실험을 제공함.

 

V, A 및 AV는 각각 비디오 전용, 오디오 전용 및 시청각 모델을 나타내며 + extLM은 외부 언어 모델을 사용한 디코딩을 나타냄. † https://cloud.google.com/speech-to-text , accessed 3 July 2018.

 

 

6.1 Lips only

 

Results.

가장 성능이 좋은 네트워크는 TM-seq2seq로,

언어 모델로 디코딩 할 때

LRS2-BBC에서 48.3 %의 WER를 달성하며, 이전 70.4 % 최신 기술에 비해 22 % 이상 절대적으로 향상됨.

이 모델은 또한 LRS3-TED의  baseline을 58.9 %로 설정함.

 

그림에서는 테스트 문장의 단어 수에 따라 WER가 어떻게 변경되는지 보여줌

 

세트에서 5 개 미만의 샘플 (즉, 15, 16 및 19 단어)로 표현되는 문장 크기는 제외함.   dashed lines은 모든 문장에 대한 평균 WER를 보여줌.   모델 모두에서 WER는 서로 다른 문장 크기에 대해 상대적으로 균일함. 그러나 단어 수가 매우 적은 샘플 (3)은 컨텍스트를 제공하지 않기 때문에 더 어려워보임.

아래 그림은 30 개의 가장 일반적인 단어에 대한 모델의 성능을 보여준다.

비디오 전용 모델에 대해 LRS2-BBC 테스트 세트에서 가장 일반적인 30 개 단어에 대한 F1, 정밀도 및 회수율. 측정 값은 최소 편집 거리 작업을 통해 계산함. 모든 단어와 두 모델 모두 재현율보다 정밀도가 높다.

다음 그림은 LRS2-BBC에서 평가할 때 비디오 전용 TM-seq2seq 모델에 대한 빔 폭 증가 효과를 보여준다.

빔 폭을 늘리는 것이 외부 언어 모델 (+ extLM)로 디코딩 할 때 더 유리하다는 점은 주목할만하다.

 

Decoding examples.

 

이 모델은 다양한 콘텐츠에서 보이지 않는 복잡한 문장을 정확하게 예측하는 방법을 학습함.

TM-seq2seq가 올바르게 예측하는 보이지 않는 문장의 예 (동영상만 해당).

 

6.2 Audio-visual speech recognition

시각 정보는 특히 배경 소음이있는 환경에서 ASR의 성능을 향상시키는 데 사용할 수 있다. [36, 38, 40].

 

Results.

표의 결과는 오디오 신호에 잡음이있을 때 입의 움직임이 음성 인식에 중요한 단서를 제공함을 보여줌.

오디오 신호가 깨끗한 경우에도 성능을 향상시킴.

– 예를 들어, audio-visual TM-CTC 모델을 사용할 때 단어 오류율은 오디오 전용 10.1 %에서 8.2 %로 감소함.

오디오 전용 모델과 비교하여 audio-visual TM-seq2seq를 사용할 때의 이득은 유사한 디코딩 예제이다.

 

아래 표는 모델이 입술이나 오디오만으로 정확한 문장을 예측하지 못하지만 두 스트림이 모두 존재할 때 성공적으로 단어를 해독하는 많은 예를 보여준다.

TM-seq2seq 모델의 encoder-decoder attention mechanism은 입력 비디오 프레임과 가정 된 문자 출력간에 명시적인 정렬을 생성함.

 

그림는 "세계에서 가장 아름다운 지역 중 하나에서 온" 캐릭터와 해당 비디오 프레임의 정렬을 시각화

정렬은 로그 도메인의 모든 디코더 계층에 대한 모든 인코더-디코더주의 헤드를 평균화하여 생성함.

아키텍처에는 여러 개의 어텐션 헤드가 포함되어 있으므로 로그 도메인의 모든 디코더 레이어에서 어텐션 마스크를 평균화하여 정렬을 얻는다. 

 

 

 Noisy audio.

원래 발화에 babble noise를 추가하여 합성 된 시끄러운 오디오로 오디오 전용 및 시청각 실험을 수행함.

시끄러운 환경에서 음성 인식은 기성품 Google S2T ASR 기준의 현저히 낮은 성능 (깨끗한 것에 비해 60 % 이상의 성능 저하)에서 볼 수 있듯이 매우 어렵다.

이러한 어려움은 오디오 전용 모델의 성능에도 반영되어 있다.

단어 오류율은 입술 만 사용할 때와 비슷함.

그러나 두 가지 양식을 결합하면 단어 오류율이 최대 30 %까지 크게 감소하여 상당한 개선을 제공함.

특히, 시청각 모델은 시끄러운 배경 소음이있을 때 비디오 전용 또는 오디오 전용 모델보다 훨씬 더 잘 수행함.

 

 

 AV attention visualization.

 

그림에서 오디오 스트림에 부가적인 babble 노이즈가 있는 경우와 없는 경우

서로 다른 TM-seq2seq 모델의 어텐션 마스크를 비교

 

 

(a) 깨끗한 오디오 발화와

(b) 25 개의 중앙 오디오 프레임에 babble noise를 추가하여 얻은 시끄러운 발화에 대한 주의를 보여줌.

(c)와 (d)를 비교하면 오디오 전용 모델의 관심은

노이즈가 적용되는 영역 주변에 더 퍼져있는 반면 마지막 프레임은 처리되지 않는다.

 

(c)와 (d)를 비교하오디오 전용 모델의 관심

노이즈가 적용되는 영역 주변에 더 퍼져있는 반면

마지막 프레임은 처리되지 않는다.

 

시청각 모델의 경우와 유사하게

오디오가 시끄러울 때 (g)에 비해 오디오가 깨끗할 때 (f) 오디오 주의가 더 집중됨.

문장의 ground truth내용은 “one of the articles there is about the queen elizabeth” 이다.

필사본을 살펴보면 오디오 전용 모델 (d)은 노이즈가 추가 될 때

중심 단어를 올바르게 예측하지 못하지만

 시청각 모델 (g & h)은 시각적 신호를 활용하여 문장을 성공적으로 전사함.

 

 

흥미롭게도 이 특정 예에서 비디오 전용 모델이 출력하는 내용 (e)은 완전히 잘못되었다.

그러나 두 양식의 조합은 올바른 예측을 산출함.

마지막으로, 비디오 입력 (f)에 대한 AV 모델의주의 마스크는 명확한 단조로운 추세를 가지며

비디오 전용 모델 (e) 중 하나와 유사함.

이것은 또한 모델이 오디오가있는 경우에도 실제로 비디오 양식을 사용하는 방법을 학습하는지 확인함.

6.3 Out-of-sync audio and video

 

오디오 및 비디오 입력이 일시적으로 정렬되지 않은 경우

시청각 모델의 성능을 평가함.

 

데이터 세트에서 오디오와 비디오가 동기화되었으므로

동기화되지 않은 효과를 얻기 위해 비디오 프레임을 종합적으로 이동

LRS2-BBC 데이터 세트의 동기화되지 않은 샘플에 대한 성능을 평가함.

 

무작위로 이동 한 샘플에 대한 미세 조정이 있거나 없는 TM-CTC 및 TMseq2seq 아키텍처를 고려함.

TM-seq2seq 모델은 한 epoch에 대해서만 미세 조정되는 반면,

train-val 세트에서 4 epoch에 대한 CTC는 미세 조정함.

TM-seq2seq 아키텍처가 이러한 변화에 더 강하다는 것은 분명함.

동기화 되지 않은 효과가 실질적으로 사라지도록 한 세대 동안만 모델을 보정하면 된다.

두 가지 양식에 대해 독립적 인 인코더-디코더주의 메커니즘을 사용하는 이점을 보여줌.

대조적으로, 두 인코딩을 연결하는 TM-CTC는 여러 epoch의 미세 조정 후에도 이동을 처리하는 데 어려움을 겪는다. 

 

6.4 Discussion on seq2seq vs CTC

 

TM-seq2seq 모델은 오디오가 제공되지 않을 때 WER 측면에서 립 리딩 성능이 훨씬 뛰어남.

오디오 전용 또는 시청각 작업의 경우 두 가지 방법이 비슷하게 수행함.

그러나 CTC 모델은 배경 소음을 더 잘 처리하는 것으로 보임. 

시끄러운 babble noise 거리는 소음이 있는 경우 오디오 전용 및 시청각 TM-seq2seq 모델 모두 TM-CTC 모델보다 성능이 훨씬 더 떨어진다.

 

Training time.

TM-seq2seq 모델은 아키텍처가 더 복잡하고 교육하기가 더 어렵다.

전체 시청각 모델은 12GB 메모리가있는 단일 GeForce Titan X GPU에서 두 데이터 세트에 대한 전체 커리큘럼을 완료하는 데 약 8 일이 걸린다.

대조적으로, 시청각 TM-CTC 모델은 동일한 하드웨어에서 약 5 일만에 더 빠르게 훈련함.

그러나 두 아키텍처 모두 반복 모듈과 배치 정규화가 없기 때문에

구현이 여러 GPU로 크게 병렬화 될 수 있다는 점에 유의해야함. 

 

Inference time.

 

 TM-CTC 모델의 디코딩에는 자동 회귀가 필요하지 않으므로 CTC 확률은 빔 폭 W에 관계없이 한 번만 평가하면 됨.

이는 빔 검색의 모든 단계에서 디코더 서브 네트워크를 W 번 평가해야하는 TM-seq2seq의 경우가 아니다.

이렇게하면 CTC 모델의 디코딩 속도가 빨라져 배포에 중요한 요소가 될 수 있다.

 

 

Language modelling.

 

두 모델 모두 외부 언어 모델이 빔 검색에 통합 될 때 더 잘 수행되지만,

시각적 모델만으로는 명시적인 언어 일관성이 적용되지 않기 때문에 TM-CTC의 이점이 훨씬 더 높다.

 

Generalization to longer sequences.

우리는 TMCTC 모델이 커리큘럼 학습 중에 시퀀스 길이가 증가함에 따라 더 잘 일반화되고 더 빠르게 적응하는 것을 관찰함. 

후자가 수렴하는 데 더 많은 에포크가 걸리기 때문에 이것이 훈련 시간에도 영향을 미친다고 생각함.