VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
https://arxiv.org/pdf/2104.11178.pdf
-abstract-
convolution이 없는 Transformer 아키텍처를 사용하여
레이블이 지정되지 않은 데이터에서
multimodal 표현을 학습하기 위한 프레임 워크를 제시함.
특히, Video-AudioText Transformer (VATT)는 raw 신호를 입력으로 사용함,
다양한 다운 스트림 작업에 도움될 많큼 풍부한 multimodal 표현을 추출한다.
멀티 모달 contrastive losses을 사용하여
VATT end-to-end를 처음부터 훈련하고다운 스트림 작업을 통해 성능을 평가함.
1. 비디오 동작 인식,
2. 오디오 이벤트 분류,
3. 이미지 분류,
4. 텍스트-비디오 검색
또한 세 가지 modality 간에 weights를 공유하여
양식에 구애받지 않는 single-backbone Transformer를 연구함.
convolution이 없는 VATT가 다운 스트림 작업에서
최첨단 ConvNet 기반 아키텍처를 능가한다는 것을 보여줌.
특히 VATT의 vision Transformer는 최고 정확도를 달성하면서
감독 된 사전 교육을 피하면서 새로운 기록을 달성.
Kinetics-400에서 82.1%,
Kinetics-600에서 83.6%,
Moments in Time에서 41.1 %
이미지 분류로 전송하면
ImageNet에서 78.7% top-1 정확도로 이어지고,
동일한 Transformer를 처음부터 훈련함으로써
64.7%에 비해 비디오와 이미지 간의 도메인 차이에도 불구하고
모델의 일반화 가능성을 보여준다.
VATT의 오디오 트랜스포머는 감독 된 사전 교육없이
AudioSet에서 39.4 %의 mAP를 달성함으로써
파형 기반 오디오 이벤트 인식에 대한 새로운 기록을 세웠다.
3. Approach
convolution이 없는 VATT 아키텍처를 소개하고
처음부터 VATT를 교육하기 위한
self-supervised multimodal 목표에 대해 자세히 설명함.
각 양식을 tokenization layer에 공급함.
여기서 raw input은 임베딩 벡터에 투영 된 후 Transformer가 이어짐.
두 가지 주요 설정이 있다.
1) backbone Transformers는 분리되어 있으며
각 modality에 대한 특정 weights가 있다.
2) Transformers는 weight를 공유한다.
즉, 모든 modality에 적용되는 single backbone Transformer가 있다.
두 설정 모두에서 backbone은 양식 별 표현을 추출한 다음
공통 공간에 매핑되어 contrastive losses로 서로 비교
두 설정 모두에서 backbone은 modality 별 표현을 추출한 다음
공통 공간에 매핑되어 contrastive losses로 서로 비교함.
3.1. Tokenization and Positional Encoding
VATT는 raw signals에서 작동함.
vision-modality 입력은 비디오 프레임의 3 채널 RGB 픽셀로 구성되며
오디오 입력은 공기 밀도 진폭 (파형)의 형태이며
텍스트 입력은 단어 시퀀스입니다.
먼저 raw signals를 입력으로 취하고
트랜스포머에 공급할 벡터 시퀀스를 반환하는 modality-specific tokenization layer을 정의함.
게다가, 각 modality에는 토큰 순서를 Transformers에 주입하는 자체 positional encoding이 있다. [93]
Video :
각 패치의 전체 복셀에 선형 투영을 적용하여 d 차원 벡터 표현을 얻는다.
이것은 [29]에서 제안 된 패치 메커니즘의 3D 확장으로 볼 수 있다.
간단한 방법을 사용하여 각 패치의 위치를 인코딩함.
학습 가능한 임베딩의 차원 별 시퀀스를 정의
각 인코딩 위치 (i, j, k)는 다음과 같이 3D 공간의 차원을 따라 정의됨.
Audio :
[T'/t'] 학습 가능한 임베딩을 사용하여 각 파형 세그먼트의 위치를 인코딩함.
Text:
먼저 훈련 데이터 세트의 모든 단어에서 v크기의 어휘를 구성함
이것은 자연어 이해에 널리 사용되는 임베딩 사전 조회와 동일함 [66].
3.1.1 DropToken
훈련 중 계산 복잡성을 줄이기 위한 간단하면서도 효과적인 전략인 DropToken을 소개함.
비디오 또는 오디오 modality에 대한 토큰 시퀀스를 받으면
토큰의 일부를 무작위로 샘플링한 다음 전체 토큰 세트가 아닌 샘플링 된 시퀀스를 Transformer에 공급함.
입력 길이를 줄이려는 모든 노력은 2 차적으로 FLOP 수를 줄인다.
이는 이러한 모델을 교육하기 위한 벽시계 시간에 즉각적인 영향을 미치며
제한된 하드웨어에서 대형 모델을 호스팅 할 수 있게한다.
저자는 raw inputs의 해상도 나 크기를 줄이는 대신
high-fidelity input을 유지하고
DropToken을 통해 토큰을 무작위로 샘플링하는 것이 더 낫다고 주장함.
DropToken은 특히 높은 중복성을 포함 할 수 있는 raw video와 audio 입력에 매력적이다.
3.2 The Transformer Architecture
간단하게 하기 위해 NLP에서 널리 사용되는 가장 확립 된 Transformer 아키텍처 [27]를 채택함.
ViT [29]와 유사하게, 저자는 가중치를 표준 Transformer 구현으로 쉽게 전송할 수 있도록 아키텍처를 조정하지 않는다.
저자의 선택에 대해 간략히 설명하고 표준 Transformer 아키텍처에 대한 자세한 내용을 보려면 [29, 27]을 참조.
나중에 분류 및 공통 공간 매핑에 사용함.
MHA는 Multi-Head-Attention의 약자로, 입력 시퀀스에 대해 standard self attention [93]를 수행함.
MLP는 MultiLayer-Perceptron의 약자이며 GeLU 활성화 [46]에 이어 또 다른 dense linear projection을 포함하는 고dense linear projection을 포함함.
LN은 Layer Normalization [7]을 의미함.
이 간단한 변경으로 인해 텍스트 모델의 가중치를 최첨단 텍스트 모델 T5 [78]로 직접 전송함.
3.3. Common Space Projection
네트워크를 훈련하기 위해 공통 공간에서 공통 공간 투영과 대조 학습을 사용.
보다 구체적으로, video-audio-text triplet이 주어지면
코사인 유사성에 따라 비디오-오디오 쌍과 비디오-텍스트 쌍을 직접 비교할 수 있는 의미 상 계층적 공통 공간 매핑을 정의함.
[1]에서 주장했듯이, 이러한 공간에 대해 서로 다른 수준의 의미 론적 세분성이 있다고 가정하면 이러한 비교가 더 가능함.
이를 위해 다음과 같이 다단계 투영을 정의함
이 계층 구조의 주된 직관은 서로 다른 양식이 서로 다른 수준의
의미론적 입도를 가지므로
이를 공통 공간 투영에서 유도 편향으로 적용해야한다.
학습을 용이하게하기 위해 각 선형 레이어 다음에 배치 정규화가 사용함.
3.4. Multimodal Contrastive Learning
레이블이 없는 multimodal 비디오는 야생에서 많이 사용할 수 있으므로
self-supervised objectives를 사용하여 VATT를 교육함.
[1, 4, 64]에서 영감을 받아 NCE (Noise-ContrastiveEstimation)를 사용하여 비디오-텍스트 및 비디오-오디오 쌍을 정렬함.
video-audio-text 스트림이 주어 졌다고 가정하면,
서로 다른 시간적 위치에서 video-text와 video-audio 쌍을 구성함.
두 양식에 대한 Positive 쌍은
동일한 비디오 클립에서 video-audio 및 video-text 쌍을 간단히 선택하여 구성함.
Negative 쌍은 video, audio 또는 text 시퀀스를 개별적으로 무작위로 샘플링함.
NCE 목적 함수는 양수 쌍 간의 유사성을 최대화하는 한편 음수 쌍 간의 유사성을 최소화한다.
사전 훈련 데이터 세트에서 텍스트는 기성품 ASR에 의한 음성 기록이므로 noisy text sequences가 많다.
게다가 일부 비디오 시퀀스에는 음성 오디오 나 대본이 포함되어 있지 않다.
따라서 [1]에서 제안한대로 NCE의 확장인 MIL-NCE (Multiple-Instance-Learning-NCE)를 사용하여
비디오 입력을 비디오 입력에 일시적으로 가까운 여러 텍스트 입력에 일치시킴.
이 변형은 [64]에서 비디오 텍스트 일치를위한 바닐라 NCE를 향상시킴.
비디오-오디오 쌍에는 일반 NCE를 사용하고 비디오-텍스트 쌍에는 MIL-NCE를 사용함.
공통 공간이 주어지면 손실 목표는 다음과 같이 작성할 수 있다.
식 4에서 B는 배치 크기이다.
하나의 양의 쌍으로 각 반복 B 비디오-오디오 쌍을 구성함.
식 5에서 P (z)와 N (z)은 각각 비디오 클립 zv, vt를 일시적으로 둘러싼 양수 및 음수 텍스트 클립이다.
특히, P (zv, vt)에는 비디오 클립에 가장 가까운 5 개의 텍스트 클립이 포함함.
τ는 포지티브 쌍과 네거티브 쌍을 구분할 때 대물 렌즈의 부드러움을 조정하는 온도임.
전체 VATT 모델을 end-to-end 교육하기 위한 전반적인 목표는 다음과 같다.