본문 바로가기

Programming/음성 전처리4

audio-visual speech recognition(only audio) 모델 흐름 (T, B, D) -> (B, D, T) (B, D, T) -> conv1d -> (B, D, T) -> frame과 dim 변경 (B, D, T) -> (T, B, D) (T, B, D) -> posEn -> (T, B, D) (T, B, D) -> trans -> (T, B, D) (T, B, D) -> trans -> (T, B, D) (T, B, D) -> (B, D, T) (B, D, T) -> conv1d -> (B, D, T) -> dim 만 변경. (B, D, T) -> (T, B, D) (T, B, D) -> softmax -> (T, B, D) 최종적으로 각 forward를 처리할때마다 (T , B, D) 에서 T만 바뀜. outputBatch : (T 29 , B 32, D 40) t.. 2021. 7. 7.
audio-visual speech recognition 데이터 batch 흐름. -getitem- pre-train일 때만 데이터셋에서 stepSize를 기준으로 파티션을 나눈다. 여기서는 stepSize를 16384로 지정. 3분할로 하고 [0, 16384, 32768] 현재 인덱스에 위치에 더한다. (예 index 12572 -> [12572, 28956, 45340] 여기서 전체 끝부분 index에 벗어나지 않도록 해당 부분의 index만 가져오고 파티션 중에 램덤으로 해당 위치의 index만 가져옴. 오디오와 텍스트 파일을 읽고 파일에 noisy를 쓸지, 안쓸지 랜덤으로 판단. 다음으로 데이터 준비 형태에 들어간다. 데이터 preprare_pretrain_input 함수에서는 오디오와 텍스트를 적절한 tensor형태로 변환해주는 역할을 한다. 먼저 ta.. 2021. 7. 7.
오디오 20개의 샘플을 읽어와서 1 시간 노이즈 생성. https://github.com/lordmartian/deep_avsr/blob/master/audio_only/preprocess.py 2021. 7. 5.
mp4에서 wav 오디오 추출 방법 https://github.com/lordmartian/deep_avsr/blob/master/audio_only/preprocess.py lordmartian/deep_avsr A PyTorch implementation of the Deep Audio-Visual Speech Recognition paper. - lordmartian/deep_avsr github.com 2021. 7. 5.