논문(papers)/관심 논문4 AlignNet: A Unifying Approach to Audio-Visual Alignment https://arxiv.org/pdf/2002.05070.pdf -Abstract- 불균일하고 불규칙한 오정렬에서 기준 오디오와 비디오를 동기화하는 모델인 AlignNet을 제시함. AlignNet은 비디오의 각 프레임과 오디오 간의 end2end dense correspondence을 학습함. 방법은 attention, pyramidal processing, warping, affinity function과 같은 간단하고 잘 정립된 원칙에 따라 설계됨. 모델과 함께 훈련/평가를 위한 댄스 데이터 셋 Dance50을 출시함. 댄스-음악 정렬, 스피치-립 정렁에 대한 정성적, 정량적, 주관적 평가 결과는 방법이 최첨단 방법을 훨씬 능가함. 1. Introduction 무용수는 음악에 맞춰 몸을 움직이고,.. 2021. 8. 2. An Attention Free Transformer https://arxiv.org/pdf/2105.14103.pdf -abstract- 내적 self attention의 필요성을 제거하는 Transformers [1]의 효율적인 변형인 AFT (Attention Free Transformer)를 소개함. AFT layer에서 key와 value은 먼저 학습 된 position biases 집합과 결합되며, 그 결과는 element-wise 방식으로 query와 곱함. 이 새로운 작업은 memory complexity linear. w.r.t. 컨텍스트 크기와 특징의 차원을 모두 포함하여 큰 입력과 모델 크기와 모두 호환됨. 또한 global 연결을 유지하면서 locality과 spatial weight 공유 개념을 활용하는 두 가지 모델 변형인 AFT-.. 2021. 7. 15. An Attention Free Transformer - Abract - dot product self attention의 필요성을 제거하는 Transformers [1]의 효율적인 변형인 AFT (Attention Free Transformer)를 소개함. AFT layer에서 key와 value은 먼저 학습 된 position biases 집합과 결합된 후 결과는 element-wise 방식으로 query와 곱한다. 이 새로운 작업은 메모리 복잡성 선형 즉, 컨텍스트 크기와 특징의 차원을 모두 포함하여 큰 입력과 모델 크기 모두 호환한다. 또한 글로벌 연결을 유지하면서 지역성과 공간 가중치 공유의 개념을 활용하는 두가지 모델 변형인 AFT-local/AFT-conv를 소개함. 두 가지 autoregressive modeling 작업 (CIFAR10 및 .. 2021. 6. 14. Switch Transformers Switch Transformers: Scaling To Trillion Parameter Models WithSimple And Efficient Sparsity. 2021. 6. 14. 이전 1 다음