UnipiEprints
Università di Pisa
Sistema bibliotecario di ateneo

A Preliminary Application of Echo State Networks to Emotion Recognition

Gallicchio, Claudio and Micheli, Alessio (2014) A Preliminary Application of Echo State Networks to Emotion Recognition. In: Proceedings of the First Italian Conference on Computational Linguistics CLiC-it 2014 & and of the Fourth International Workshop EVALITA 2014, 9-11 December 2014, Pisa.

[img]
Preview
PDF - Published Version
Available under License Creative Commons Attribution No Derivatives.

Download (185Kb) | Preview

    Abstract

    SUMMARY. This report investigates a pre- liminary application of Echo State Net- works (ESNs) to the problem of auto- matic emotion recognition from speech. In the proposed approach, speech wave- form signals are directly used as input time series for the ESN models, trained on a multi-classification task over a dis- crete set of emotions. Within the scopes of the Emotion Recognition Task of the Evalita 2014 competition, the performance of the proposed model is assessed by considering two emotional Italian speech corpora, namely the E-Carini corpus and the emotion corpus. Promising results show that the proposed system is able to achieve a very good performance in rec- ognizing emotions from speech uttered by a speaker on which it has already been trained, whereas generalization of the pre- dictions to speech uttered by unseen sub- jects is still challenging. RIASSUNTO. Questo documento esamina l’applicazione preliminare delle Echo Stato Networks (ESN) per il problema del riconoscimento automatico delle emozioni dal parlato. Nell’approccio proposto, i segnali che rappresentano la forma d’onda del parlato sono usati direttamente come serie temporali di ingresso per i modelli ESN, addestrati su un compito di multiclassificazione su un insieme discreto di emozioni. Entro gli ambiti della Emotion Recognition Task della competizione Evalita 2014, la performance del modello proposto viene valutata considerando due corpora di dati emotivi in lingua Italiana, ovvero il corpus E-Carini e il corpus emotion. I risultati ottenuti sono promettenti e mostrano cheil sistema proposto è in grado di raggiungere una buona prestazione nel riconoscimento di emozioni a partire dalle parole pronunciate da un utente sul quale il sistema è stato già addestrato, mentre la generalizzazione delle predizioni per le frasi pronunciate da soggetti mai visti in fase di addestramento rappresenta ancora un aspetto ambizioso.

    Item Type: Conference or Workshop Item (Conference)
    Subjects: Area01 - Scienze matematiche e informatiche > INF/01 - Informatica
    Divisions: Dipartimenti (from 2013) > DIPARTIMENTO DI INFORMATICA
    Depositing User: dott.ssa Sandra Faita
    Date Deposited: 24 Apr 2015 12:57
    Last Modified: 28 Apr 2015 16:15
    URI: http://eprints.adm.unipi.it/id/eprint/2342

    Repository staff only actions

    View Item