논문(papers)14 AlignNet: A Unifying Approach to Audio-Visual Alignment https://arxiv.org/pdf/2002.05070.pdf -Abstract- 불균일하고 불규칙한 오정렬에서 기준 오디오와 비디오를 동기화하는 모델인 AlignNet을 제시함. AlignNet은 비디오의 각 프레임과 오디오 간의 end2end dense correspondence을 학습함. 방법은 attention, pyramidal processing, warping, affinity function과 같은 간단하고 잘 정립된 원칙에 따라 설계됨. 모델과 함께 훈련/평가를 위한 댄스 데이터 셋 Dance50을 출시함. 댄스-음악 정렬, 스피치-립 정렁에 대한 정성적, 정량적, 주관적 평가 결과는 방법이 최첨단 방법을 훨씬 능가함. 1. Introduction 무용수는 음악에 맞춰 몸을 움직이고,.. 2021. 8. 2. An Attention Free Transformer https://arxiv.org/pdf/2105.14103.pdf -abstract- 내적 self attention의 필요성을 제거하는 Transformers [1]의 효율적인 변형인 AFT (Attention Free Transformer)를 소개함. AFT layer에서 key와 value은 먼저 학습 된 position biases 집합과 결합되며, 그 결과는 element-wise 방식으로 query와 곱함. 이 새로운 작업은 memory complexity linear. w.r.t. 컨텍스트 크기와 특징의 차원을 모두 포함하여 큰 입력과 모델 크기와 모두 호환됨. 또한 global 연결을 유지하면서 locality과 spatial weight 공유 개념을 활용하는 두 가지 모델 변형인 AFT-.. 2021. 7. 15. VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text https://arxiv.org/pdf/2104.11178.pdf -abstract- convolution이 없는 Transformer 아키텍처를 사용하여 레이블이 지정되지 않은 데이터에서 multimodal 표현을 학습하기 위한 프레임 워크를 제시함. 특히, Video-AudioText Transformer (VATT)는 raw 신호를 입력으로 사용함, 다양한 다운 스트림 작업에 도움될 많큼 풍부한 multimodal 표현을 추출한다. 멀티 모달 contrastive losses을 사용하여 VATT end-to-end를 처음부터 훈련하고다운 스트림 작업을 통해 성능을 평가함. 1. 비디오 동작 인식, 2. 오디오 이벤트 분류, 3. 이미지 분류, 4. 텍스트-비디오 검색 또한 세 가지 modality .. 2021. 7. 5. Discriminative Multi-modality Speech Recognition https://arxiv.org/pdf/2005.05592v2.pdf -Abstract- Vision은 오디오 음성 인식(ASR)에 대해 보완해주는 modality로 사용되며, 특히 solo audio modality의 성능이 크게 저하되는 환경에서 사용함. vissual modality를 결합 후, ASR은 multi-modality speech recognition (MSR)으로 업데이트함. 해당 논문에서는 two-stage speech recognition model을 제안한다. 1. 첫번째 단계에서 입술 움직임의 해당 시각정보를 통해 target voice와 background noises를 분리하여 모델이 명확하게 "listen" 된다. 2. 두번째 단계에서 오디오 양식은 시각적양식을 다시 결합.. 2021. 6. 23. 이전 1 2 3 4 다음