Speech Emotion Recognition by Late Fusion for Bidirectional Reservoir Computing with Random Projection

-Abstract-

이 작업은 특징을 더 높은 차원의 공간에 매핑 할 때

훈련되지 않고 희소 한 특성으로 인해 모델 복잡성을 피하기 위해 Recurrent Neural Network (RNN)의 특수 사례로

Reservoir Computing을 포함하는 Echo State Network (ESN)를 채택.

SRP (Sparse Random Projection)를 사용하여 상당한 계산 이점을 제공하기 때문에 차원 감소를 적용

양방향 입력의 Late fusion이 적용되어 입력 데이터와 독립적으로 추가 정보를 캡처

speaker-dependent와 speaker-independent 실험은 Emo-DB, SAVEE, RAVDESS의 세 가지 일반적인 음성 감정 데이터 세트에서 수행.

결과는 설계된 모델이 더 저렴한 계산 비용으로 최첨단 성능을 능가 -> 추후 compliexity를 보여달라

1. Introduction

의사 소통, 이해, 서로 돕기, 합리적 사고, 창의성 등 인간의 삶은 때로는 의사 결정에 중요한 역할을함.

그러나 문화와 개인의 차이로 인해 분류,인식, 분석 방법에 대한 일반적인 합의는 없다.

감정은 뇌파(EEG)신호, 청각, 시각, 텍스트, 제스처와 같은 다양한 채널에서 감지할 수 있음.

감정 감지는 어려운 작업이며, 의료,소셜 로봇, HCI(Human-Computer Interaction)과 같은 많은 실제 응용 분야에서 사용에 대한 수요가 높기 때문에 연구 주제의 흥한 분야가 되었으며, 광범위한 연구 영역을 다룬다.

그러나 감정은 정적인 분류가 없고 적응하기가 쉽지 않기 때문에 일부 작업은 미지의 감정에 대해 unsperivsed model을 사용하고 적응 처리하기 위해 모델을 성장시키는 방식으로 이루어진다. [3]

음성은 개인이 서로 소통 할 수 있는 효과적이고 빠르며 중요한 방법이며 [4] 음성 신호는 HCI를 위한 빠르고 유용한 메커니즘으로 간주된다.

음성 신호에서 감정을 감지하는 것은 인공 지능 분야에서 오래되었지만 큰 도전이다 [5]. 많은 연구자들이 그것에 대해 영감을 얻었다.

이러한 이유로 SER (Speech Emotion Recognition)은 HCI에서 중요한 역할을하고 있으며 최근 몇 년간 큰 진전을 보였지만 감정을 억누르기 위해 여전히 내적 감정의 특정 측면은 숨겨져 있으며 특히 인간이 원할 때 말하기에서 쉽게 측정 할 수 없다.

따라서 컴퓨터 기반 시스템이 음성 샘플의 입력에서 인식되는 것 이상으로 수행 할 것으로 기대할 수 없다.

SER의 과제 중 하나는 원시 음성 신호에서 추출되는 가장 관련성이 높은 음향 감정 특징을 결정하는 것이다.

연구자들은 말에서 감정을 감지하는 더 효과적인 특징을 찾기 위해 노력하고 있다 [6].

최근 연구에 따르면 말의 정서적 정보는 여러 유형의 특징에 분산되어 있으며 [2] 인간의 감정에 대한 정보가 가장 많은 올바른 특징을 찾는 것이 중요하다.

순차 데이터를 사용한 음성 인식과 같은 많은 애플리케이션이 RNN (Recurrent Neural Networks), GRU (Gated Recurrent Unit) , LSTM [7] 일부 딥 러닝 접근 방식을 사용하여 최첨단 결과를 달성함.

그러나 Zhong et al. [8] 전통적인 특징 추출 및 딥 러닝을 포함한 데이터 표현 연구를 검토했으며,

실제 문제는 딥 러닝의 이론과 실제 적용 사이의 격차가 여전히 상당히 크고

딥 러닝 모델이 항상 최선의 접근 방식은 아니라는 결론을 내렸다.

다변량 시계열 감정 특징 표현은 말에서 감정의 희박한 특성으로 인해 적응할 수 있다.

이러한 특성을 다루기 위해 일부 연구에서는 ESN(Echo State Network)을 특수 유형의 RNN(Recurrent Neural Network)과 reservoir computing의 일부로 사용함. -> ESN을 사용한 감정인식 논문이 있는지?

ESN의 주요보고 된 장점은 입력 계층, 훈련 없이 무작위로 할당되는 드물게 연결된 뉴런이 있는 저장소 layer와 출력 layer을 포함하므로 단순한 아키텍처를 가지고 있다는 것 [9].

시계열 데이터의 시간적 종속성은 혼란스러운 시계열 예측 모델에 성공적으로 되기 때문에 ESN에 의해 효과적 처리 가능 [10],[11]. -> 2016년/13년 논문

ESN의 단순성은 훈련 불가능한 무작위 가중치를 할당하고 deep recurrent networks의 시간 복잡성을 피함으로써 표현함, 이는 ESN의 시계열과 같은 실시간 처리[13],[14] 와 관련된 작업에 대한 궁극적인 후보자를 만든다 . <장점>

일부 연구자들은 한번만 할당하고 고정되는 reservoir part에 할당하는 가중치 할당의 무작위성 때문에 ESN의 불안정성을 해결함 [9].

그러나 [16]의 저자는 양방향 입력의 사용을 채택함 -> LSTM 과 비교 유사함.

데이터의 두 방향은 입력 데이터에서 서로 다른 독립 버전의 정보를 캡처하기 위해

순방향 및 역방향으로 동일한 저장소에 입력 시퀀스로 공급됨.

[17]의 저자들은 두 개의 다른 입력을 직선과 역순으로 입력하면 암기 능력이 향상된다는 것을 보여줌.

차원 축소 기술은 계산을 피하고, 변환된 데이터의 상관 관계를 해제하는 데 도움을 주기 위해

특징 공간 내의 고차원 데이터를 저차원 표현의 다른 부분 공간으로 변환한다.

따라서 본 논문은 PCA, RP[18] 와 같은 특정 변환 맵을 사용하여 이러한 문제를 해결하기 위해 차원 감소 기술이 적용.

reservoirs의 고차원 희소 출력 특징 표현을 다루기 어렵게 만들고 과적합과 높은 계산 자원으로 이어짐 [17]. -> 그래서 PCA를 사용.

기계 학습에서 차원 축소는 분류기에 대한 보다 유익한 표현을 준비하는데 유용함.

reservoir layer [19],[17] 차원적 감소를 위한 강력한 도구로 PCA를 사용한 연구가 있다.

ESN에서 하이퍼 파라미터를 조정하는 것은 저장소 성능에 상당한 영향을 미치기 때문에 일번적인 문제이다.

하이퍼 파라미터를 최적화하는 것은 일반적으로 느리고 보통 연구원들은 경험을 기반으로 수동으로 할당[20] 또는 그리드 검색, 랜덤 검색 및 베이지안 최적화 [21]과 같은 다른 최적화 접근 방식을 채택.

본 연구에서 저자는 양방향 late fusion, SRP(sparse random projection)을 사용하고 베이지안 최적화 방법으로 하이퍼 파라미터를 최적화 하는 SER에 대한 새로운 저장소 컴퓨팅 접근 방식을 제안함.

또한 MFCC와 GTCC는 reservoir layer에 공급하는데 사용되는 handcraft features이다.

논문의 기여 :

1. reservoir에 의해 생성 된 sparse data 분포와 잘 호환될 수 있는 차원 축소를 위해 매우 sparse random projection [22] 접근법을 사용함.

2. ESN의 기억 능력을 향상시킬 수 있는 late 표현 융합과 함께 양방향 접근 방식을 사용함. -> LSTM과 비교 설명

2. Literatue review

HCI 분야에서 감정을 감지하기 위해 음성 신호를 널리 사용하여 상호 작용을 개선함.

따라서 분류를 위한 올바른 디자인 모델과 고유한 정보를 가진 음성의 관련 감정 특징은

음성 감정 인식 모델의 두 가지 중요한 측면 [23].

중요한 특징을 추출하기 위해 일부 연구는 특징은 선호하고 다른 연구는 deep learning 특징을 사용함.

손으로 만든 특징 표현은 각 샘플을 하나의 벡터로 나타내는 전역 기능이거나 프레임 시퀀스에서 추출 된 로컬 기능 일 수 있다.

openSMILE [24] 및 COVAREP [25]와 같은 음성에서 특징을 추출하기위한 다양한 오픈 소스 툴킷이 있다.

많은 연구 [26], [27], [28], [29]는 openSMILE 툴킷을 음성에서 감정 특징을 추출하는 가장 유명한 도구로 사용.

openSMILE 툴킷은 프레임 기반 특징 기반이 아닌 전역 특징을 추출.

일부 연구자들은 음성 신호의 시계열 특징을 사용하여 실시간 감정 인식을 감지.

Scherer et al. [14] 스펙트럼 특성 시계열을 사용했지만 실시간으로 감정을 인식하는 데 성공하지 못함.

반면 최근 연구에서는 딥 러닝 모델을 사용하여 raw 음성 신호에서 직접 학습한 특징에 초점 [8][30].

시계열 특징 표현에는 반복신경망과 같은 적절한 분류기가 필요함.

[31]의 저자는 음성 신호에서 특징을 학습 할 수있는 SER 시스템에 1D CNN 네트워크를 사용.

[33]에서는 양방향 장단기 기억 (BLSTM) 모델을 채택하는 데 사용되는 고급 표현 특징이 있다.

[34]와 [35]에서 제안한 CNN과 LSTM을 모두 사용하는 음성 감정 모델.

데이터 증강 기술은 연속 음성 감정 인식을 위해 CNN을 사용하여 AESDD (Acted Emotional Speech Dynamic Database)에 [36] 사용.

그러나 몇몇 연구자들은 SER에 ESN을 사용했다고 보고함.

예를 들어 [14]에서 저자들은 완전히 성공적인 실시간 음성 감정 인식 모델을 제안하지 않았다. --> 실시간? 너네는 실시간을 했냐?

Evalita 2014 대회에 참가하기 위해 Gallicchio et al. [37] 음성에서 감정을 감지하기 위해 ESN을 제안.

Saleh et al. [38]에서는 SER에 ESN을 사용했으며, 모델에는 중립 및 분노 감정 클래스만 사용.

예를 들어 [16]과 [17]의 저자는 암기 능력을 향상시키기 위해 ESN과의 양방향을 제안.

Bianchi et al. [40]에서는 BDESN (Bidirectional Deepreadout ESN) 및 MLP (Multilayer Perceptron)를 분류기로 제안.

reservoirs에서 나오는 고차원 희소 출력은 차원의 저주로 고통받는 피쳐 표현 이는 분류기에 공급하기 위해 희소하지 않은 표현을 준비하는 데 필요한 차원 축소 단계를 만듬.

PCA (Principal Component Analysis)는 모델 성능을 향상시키기 위해 [17] 및 [40]에서 ESN과 함께 사용.

[19]는 깊은 ESN 접근 방식에서 저수지 간의 차원을 줄이기 위해 PCA 옆에 ELM 기반 자동 인코더 (ELM-AE)를 사용.

모델 성능에 중요한 영향을 미치는 ESN의 하이퍼 파라미터와 관련하여 일부 연구자들은 이러한 하이퍼 파라미터를 수정함. [20] [17].

그러나 ESN 성능을 향상시키기 위해 [41] Grasshopper Optimization Algorithm (GOA) 접근 방식으로 하이퍼 파라미터를 최적화함.

ESN에서보다 만족스러운 성능을 얻기 위해 베이지안 최적화 [42] 접근 방식도 [21]과 [43]에 채택.

3. Methodology

SER에 대한 대부분의 작업은 전역 특징을 사용했으며 시계열 로컬 특징에 대한 작업은 거의 없다.

LSTM을 모델로 사용하여 시계열 특징을 제공하는 몇 가지 작업이 문헌에서 발견. -> LSTM과 비교실험 했냐?

또한 SER 시스템에 ESN을 사용한 작품은 거의 없지만 [14] [37] [38] 그 어느 것도 뛰어난 성능을 발휘하지 못했습니다.

[17]의 작업에서 영감을 받아, 음성에서 감정을 인식하기 위해 양방향 시계열 기능이 있는 ESN을 사용. -> 이 모델과 비교 했냐? 이 모델에 비해 수정한 부분의 강점은?

이 작업에 대한 우리의 기여는 SER의 성능을 향상시키기 위해 개조 된 모델을 수정하는 것.

A. Feautre Extraction

차별적인 정보가 포함 된 음성 특징은 음성의 감정 인식에 중요한 역할.

이 작업에서는 제안 된 모델을 공급하기 위해 프레임 기반의 수공예 특징이 채택.

첫 번째 특징 집합은 13 개의 MFCC 특징.

그러나 MFCC 기반 모델은 MFCC가 잡음에 의해 편향되고 불일치 가능성 계산을 트리거하기 때문에 잡음이있는 조건에서 성능이 저하 [44].

따라서 잡음이있는 조건에서 MFCC보다 성능이 우수한 13 개의 GTCC 기능을 추출.

전반적으로 26 가지 특징이 모델에 대한 입력으로 사용 (MFCC+GTCC)

샘플의 길이가 다양하기 때문에 각 행 데이터의 시작과 끝을 0으로 채워 샘플의 길이를 동일.

각 데이터 세트의 거의 최대 길이를 기준으로 Emo-DB, SAVEE 및 RAVDESS에 대해 각각 500, 600. 400 프레임을 사용.

제한된 수의 특징 (26 가지 특징)을 사용하여 계산 비용을 줄여

결과적으로 훈련 시간을 줄이고 과적 합 가능성을 줄인다는 것

MFCC는 음성 신호의 감정에 대한 차별적인 정보를 전달하고 음성의 소음을 처리하는 GTCC를 전달하는 것으로보고

B. Bidirectional reservoir computing - ESN

Echo State Networks (ESN)는 [45]에서 reservoir 컴퓨팅 프레임 워크의 일부인 비선형 시스템을 학습하기 위한 RNN의 특수 사례로 처음 제안.

Reservoir 컴퓨팅 (RC) 프레임 워크는 RNN의 일종으로 반복되는 부분이 고차원으로 설정.

ESN은 훈련되지 않은 특성을 가지므로 LSTM과 같은 훈련 된 특성 네트워크에서 사용할 수있는 복잡성을 피할 수 있다.

또한 ESN은 입력 레이어, 저수지 레이어 및 출력 레이어를 포함하는 간단한 아키텍처를 가지고 있다.

양방향 다변량 시계열 데이터는 입력 시퀀스를 앞뒤로 저장소에 공급하여 적용.

reservoir layer에는 훈련 없이 무작위로 할당되고 고정되는 드물게 연결된 뉴런이 포함. -> 노이즈를 주나?

ESN의 단순성은 대부분의 가중치가 무작위로 할당되고 훈련 할 수 없다는 것

심층 반복 네트워크의 복잡성은 ESN을 시계열 예측과 같은 실시간 처리와 관련된 작업에 대한 궁극적인 후보로 만드는 극단적인 컴퓨팅 시간을 필요함.

T는 길이 차이를 피하기 위해 샘플을 채운 후의 시간 단계 수를 나타냄.

reservoir layer는 다음 방정식에 따라 양방향으로 업데이트 한다.

C. random projection based dimension reduction.

reservoir layer의 고차원 희소 출력은 피쳐 표현을 다루기 어렵게 만들고 과적 합과 높은 계산 비용으로 이어집니다.

SRP (Sparse Random Projection)는 희소 출력을 보다 간결한 표현으로 변환하는 데 사용.

그러나 reservoir 에서 생성 된 희소 데이터 분포는 이항 분포를 사용하기 때문에 PCA와 같은 학습 가능한 차원 축소는 잘 알려져 있다.

1과 -1로 초기화 된 값이 적절한 대안이 될 수있는 희소 무작위 투영을 채택하기 때문.

또한 PCA는 내부 교육 부분으로 인해 더 많은 시간이 소요,

SRP는 훈련이 필요하지 않고 최소한의 정보 손실로 중복을 제거하기 때문에 임의 투영이 복잡성이 낮다는 사실 외에도 차원을 줄이고 거리를 보존. -> 장점.

SRP 매트릭스를 사용하여 [22]를 따름.

SRP 행렬 R은 다음 방정식에서와 같이 1과 -1로 초기화.

d는 reservoir 출력 상태의 차수.

이 단계는 차수를 고정하거나 최적화 할 수있는 특정 숫자로 줄인다.

D. Reservoir model space and late fusion

Reservoir 모델 공간은 [17]에 의해 제안되었으며, 저수지 시퀀스의 생성 모델을 구별하고 샘플 간의 메트릭 관계를 유도.

후기 융합과 함께 양방향 접근 방식을 채택.

[17]에 의해 제안 된 모델의 공식은

다음 방정식과 같이 SRP의 감독되지 않은 차원 감소 프로세스의 두 가지 개별 출력으로 조정.

concatenate를 이용하여 연결.

각 방향을 별도의 방식으로 처리하면 앞뒤 방향 모두에서 시간 단계의 관계에 대한 풍부한 정보를 제공함.

후기 융합은 데이터의보다 다양한 표현을 결합하고 각 개별 방향의 특성을 더욱 강조하도록 유지.

ESN은 일반적으로 다음 방정식과 같이 형성되는 디코딩을 위한 선형 모델을 채택.

능선 회귀에 대한 정규화 매개 변수는 어디에 있으며 훈련 데이터의 과적 합을 최소화하는 데 도움.

E. The bayesian hyperarameter optimation.

수동으로 또는 경험을 기반으로 ESN 매개 변수가 할당.

저장소 상태의 크기, 스펙트럼 반경, 연결 크기, 입력 스케일링, 저장소 상태 업데이트의 누출량, 드롭 아웃 수와 같은 주요 ESN 하이퍼 파라미터를 최적화.

또한 차원 감소 절차 후 결과 차원 수와 모달 공간 및 능선 회귀 판독 부분의 정규화 매개 변수를 최적화

[43]의 베이지안 최적화와 그리드 검색의 비교에 따르면 베이지안 최적화는 실험에서 그리드 검색보다 더 효율적.

베이지안 최적화는 임의 함수를 최적화하기위한 기울기없는 전역 최적화 접근 방식[48],

모델의 손실함수를 최소화하깅 위해 싲가 하이퍼 파라미터는 일반적으로 조정하기 어렵다. [43]

베이지안 최적화는 표1과 같이 SRP의 차원 축소 크기 외에도 reservoir layer, ridge regression의 매개변수를 조정하는데 사용함.

Figure 2는 각 데이터 세트에 대한 100개의 반복 샘플을 보여준다.

F. Spearker Normalization (SN).

Valsenko [49]의 작업에서 영감을 얻었습니다.

스피커 독립적 인 실험에서 각 특정 스피커 샘플에 대해 스피커 정규화 (SN)를 채택.

SN은 특정 데이터 세트의 화자 중 하나에 속하는 발화의 평균을 해당 샘플의 표준 편차로 나눈 값을 뺀 것으로 이해.

4. Experimental setup and results.

음성 감정 인식을 위해 ESN을 사용하는 것에 대해보고 한 연구는 많지 않다.

그 이유는 시계열 특징 대신 전역 특징을 광범위하게 사용하기 때문일 수 있다.

이전 섹션에서 언급했듯이 ESN은 시계열 데이터에서 좋은 성능.

정밀도, 재현율, F1 점수, WA, UW로 표시.

정밀도와 재현율은 분류 성능을 평가하는 데 사용되며 F1 점수는 정밀도와 재현율의 가중 평균이다.

가중 정확도는 올바르게 분류 된 감정을 총 감정 클래스 수로 나눈 값과 일치하는 반면, 비가 중 정확도 (UA)는 클래스 별 정확도의 평균을 의미

처음에 우리는 5 배 및 10 배 교차 검증 기술을 사용하는 스피커 의존적 접근 방식에 추가로 하나의 스피커 출력 (LOSO)을 사용하는 스피커 독립적 접근 방식을 적용.

모델은 5 배에 대해 5 번, 10 배에 대해 10 번 훈련되고 테스트되며, 매번 한 세트가 테스트 세트로 간주되고 나머지 세트는 학습 세트로 간주.

A. EMO-DB

1) speaker-independnet

LOSO 방식은 스피커 독립적으로 적용되는데, Emo-DB에서는 9 개의 스피커를 train 세트로, 1 개의 스피커를 테스트 세트로 설정하고이 과정을 반복하여 테스트 세트에있는 모든 스피커의 참여를 보장함.

2) speaker-dependnet

5 배 교차 검증 방법을 적용

10-fold 접근 방법 사용 .

B. SAVEE

SAVEE [51]은 얼굴 표정 및 음성 감정 인식에 사용할 수있는 영국식 영어 음성 데이터베이스.

오디오 스피치 부분 만 사용

SAVEE 데이터 세트는 또한 5 겹 및 10 겹 교차 검증을 위해 화자 독립 및 화자 종속을 기반으로 제안 된 모델을 검증하는 데 사용

1) Speaker-independent

2) Speaker-dependent

화자 의존 방법과 Emo-DB 데이터 세트와 동일한 모델의 가장 신뢰할 수있는 결과를 얻기 위해 5 겹 및 10 겹 교차 검증을 적용

C. RAVDESS

1) Speaker-independent

2) Speaker-dependent

V. DISCUSSION

제안 된 모델 성능을 다른 기준 방법과 비교

높은 분류 정확도를 얻기 위해 우리는 하이퍼 파라미터가 최적화 된 양방향 시계열 표현을 사용하여 저수지 계층에 대한 입력으로 작은 크기의 손으로 만든 특징을 다루는 새로운 ESN 모델을 제안

또한, 희소 랜덤 프로젝션을 적용하여 저수지 레이어의 출력 특징 표현을 줄였으며, 이는 모델이 희소 표현 데이터를 더 잘 처리하는 데 도움이되었습니다.

음성 신호에서 감정 상태를 인식하기 위해 3 개의 인기 벤치 마크 데이터 세트에 대해 5 배 및 10 배 교차 검증을 통해 화자 독립 및 화자 종속을 채택.

후기 양방향 융합은 능선 회귀 분류기에 공급하기 전에 데이터에서 더 많은 정보를 추출하는 데 도움.

SER에 대한이 새로운 제안 된 접근 방식은 분류 정확도를 개선하는 데 도움이되었으며 ESN의 단순성과 훈련없는 특성으로 인해 LSTM 및 CNN과 같은 다른 딥 러닝 방법에 비해 처리 시간이 단축.

그림 3에 표시된 것처럼 특히 데이터가 클래스 당 발화 크기 측면에서 불균형 한 경우 실제 성능을 더 많이 나타 내기 때문에 전체 UA (비가 중 정확도)를 제시.

'논문(papers) > 감정인식' 카테고리의 다른 글

Happy Emotion Recognition From Unconstrained Videos Using 3D Hybrid Deep Features (0)	2021.05.11

Way maker

Speech Emotion Recognition by Late Fusion for Bidirectional Reservoir Computing with Random Projection

'논문(papers) > 감정인식' 카테고리의 다른 글

티스토리툴바

Speech Emotion Recognition by Late Fusion for Bidirectional Reservoir Computing with Random Projection

'논문(papers) > 감정인식' 카테고리의 다른 글

관련글

티스토리툴바