논문(papers)/음성인식6 Discriminative Multi-modality Speech Recognition https://arxiv.org/pdf/2005.05592v2.pdf -Abstract- Vision은 오디오 음성 인식(ASR)에 대해 보완해주는 modality로 사용되며, 특히 solo audio modality의 성능이 크게 저하되는 환경에서 사용함. vissual modality를 결합 후, ASR은 multi-modality speech recognition (MSR)으로 업데이트함. 해당 논문에서는 two-stage speech recognition model을 제안한다. 1. 첫번째 단계에서 입술 움직임의 해당 시각정보를 통해 target voice와 background noises를 분리하여 모델이 명확하게 "listen" 된다. 2. 두번째 단계에서 오디오 양식은 시각적양식을 다시 결합.. 2021. 6. 23. End-to-end audio-visual speech recognition with conformers (ICASSP 2021) -Abstract- 이 작업에서는 e2e 방식으로 훈련 할 수 있는 ResNet-18과 Convolution-augmented Transformer (Conformer)를 기반으로하는 하이브리드 CTC / Attention 모델을 제시함. 특히, audio와 visual encoders는 각각 raw 픽셀과 오디오 파형에서 직접 특징을 추출하는 방법을 학습 한 다음 conformers에 공급 한 다음 MLP (Multi-Layer Perceptron)를 통해 융합이 발생함. 모델은 CTC와 Attetnion mechanism의 조합을 사용하여, 문자를 인식하는 방법을 배움. 논문에서 흔히 볼 수 있는 미리 계산 된 시각적 특징을 사용하는 대신 -> end-to-end 훈련과 recurrent networ.. 2021. 6. 21. Fusing information streams in end-to-end audio-visual speech recognition https://arxiv.org/pdf/2104.09482v1.pdf -Abstract- End-to-end 음향 음성 인식은 빠르게 널리 보급되었으며, 많은 연구에서 유망한 결과를 보여준다. 특히 joint transformer/CTC model은 많은 작업에서 매우 우수한 성능을 제공한다. 그러나 시끄럽고 왜곡 된 조건에서는 성능이 여전히 현저하게 저하됨. 시청각 음성 인식은 이러한 열악한 조건에서 end-to-end 모델의 인식률을 크게 향상 시킬 수 있지만. 이러한 모델에서 음향과 시각에 대한 가능한 정보를 가장 잘 활용하는 방버은 분명하지 않다. 따라서 음향 및 시각 정보 스트림의 시변 신뢰성을 transformer/CTC 모델에 최적으로 알리는 방법에 대한 질문을 고려함. attention m.. 2021. 6. 15. Deep Audio-Visual Speech Recognition https://arxiv.org/pdf/1809.02108.pdf -Abstract- 이 작업의 목표는 음성 유무에 관계 없이 말하는 얼굴이 말하는 구와 문장을 인식하는 것 제한된 수의 단어 나 구를 인식하는 데 중점을 둔 이전 작업과 달리, 제한 없는 자연어 문장과 야생 비디오와 같은 open-world problem로 입술 읽기를 다루고 있다. 기여 : 1. 입술 판독을 위해 두 모델을 비교 (CTC loss vs. sequece-to-sequence loss.) 두 모델은 transformer self-attetnion architecture로 구축. 2. 특히 오디오 신호에 잡음이 있을 때 입술 읽기가 오디오 음성 인식을 보완하는 정도를 조사함. 3. 영국 TV의 수천 개의 자연어 문장으로 구성 .. 2021. 6. 7. 이전 1 2 다음