Rights:
Atribución-NoComercial-SinDerivadas 3.0 España
Abstract:
En las últimas décadas, los sistemas automáticos de reconocimiento de patrones han ganado mucha importancia debido al interés de crear interacciones entre el hombre y la máquina lo más naturales posibles.
Este trabajo fin de grado se centra en los sistemas auEn las últimas décadas, los sistemas automáticos de reconocimiento de patrones han ganado mucha importancia debido al interés de crear interacciones entre el hombre y la máquina lo más naturales posibles.
Este trabajo fin de grado se centra en los sistemas automáticos de reconocimiento de emociones que, a partir de la voz de un hablante y usando técnicas de aprendizaje máquina, son capaces de reconocer el estado emocional del locutor. Este tipo de sistemas pueden ser muy útiles para mejorar la calidad de vida de las personas, especialmente para las que tienen algún tipo de discapacidad o incluso para mejorar investigaciones que están relacionadas con la emoción, como puede ser en el campo de la psicología o neurología.
El objetivo de este trabajo es diseñar e implementar en Matlab un sistema de reconocimiento automático de emociones. Para ello, previamente se han estudiado las bases teóricas y así poder comprender cómo se relacionan las emociones con los aspectos físicos y acústicos de la voz. Se han investigado algunas técnicas de clasificación para decidir cuál se adapta mejor a los objetivos de este proyecto.
El sistema desarrollado consta de dos etapas: parametrizador y clasificador. El primer módulo se encarga de la extracción de tanto características espectrales (coeficientes mel-cepstrales) como características prosódicas de la señal de voz (frecuencia fundamental, frecuencia del primer formante, parámetros de calidad acústica, duración). En la segunda etapa, se procede a la comparación de dichas características con los patrones de emociones obtenidos mediante un proceso de entrenamiento, a partir de una base de datos previamente etiquetada. Dicha comparación se realiza utilizando técnicas de clasificación basadas en máquinas de vector soporte.
Para determinar las prestaciones del sistema, se han realizado una serie de experimentos considerando distintas características espectrales, prosódicas y su combinación. A la vista de los resultados, se ha podido concluir que las características espectrales extraídas a nivel de clase contienen una información más precisa sobre las emociones que las extraídas a nivel de expresión, y que la combinación de dichas características espectrales con las prosódicas producen los mejores resultados de reconocimiento.[+][-]
In recent decades, the automatic pattern recognition systems are gaining a lot of importance due to the interest of creating interactions between man and machine as natural as possible.
This final project is focused on the automatic emotion recognition, whichIn recent decades, the automatic pattern recognition systems are gaining a lot of importance due to the interest of creating interactions between man and machine as natural as possible.
This final project is focused on the automatic emotion recognition, which from the voice of a speaker and using machine learning techniques, is able to recognize the emotional state of the speaker. These types of systems can be very helpful to improve the quality of life of people, especially those with some kind of incapacity or even to enhance researches that are related with emotion, such as in the field of psychology or neurology.
The object of this project is to design and implement automatic emotion recognition in Matlab. To do so, theoretic basis have previously been studied in order to understand how emotions relate to the physical and acoustic aspects of voice. Besides, some classification techniques have been treated in order to decide which one is the best to achieve the objectives of this project.
The developed system consists of two stages: parameter assignment and classifier. The first module is responsible for the extraction of both spectral characteristics (mel-cepstral coefficients) as prosodic characteristics of the voice signal (fundamental frequency, of the first formant frequency, sound quality settings, duration). In the second stage, we compare these characteristics with emotion patterns obtained through a training process from a data base pre-labeled. This comparison is performed using classification techniques based on support vector machines.
To determine the performance of the system, a number of experiments have been made considering different spectral and prosodic features and their combination. Regarding the results, it has been concluded that the spectral features extracted at class level contain more precise information about the emotions than the ones extracted at expression level, and that the combination of these spectral features with the prosodic ones produce the best recognition results.[+][-]