Publication:
Diseño e implementación de un reconocedor de habla híbrido en Matlab

Loading...
Thumbnail Image
Identifiers
Publication date
2013-06
Defense date
2013-07-09
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
En este trabajo hemos abordado la implementación de las primeras etapas de un reconocedor automático de habla en Matlab con una arquitectura híbrida ANN/HMM (Artificial Neural Networks / Hidden Markov Models). En particular se han implementado los módulos de adquisición, extracción de características y parte del modelado acústico. Para la adquisición, se han utilizado librerías estándar de matlab para poder realizar la lectura de la base de datos ISOLET. Esta librería es ampliamente conocida en el área del reconocimiento automático de habla. Posteriormente, se ha utilizado la librería Voicebox para obtener los coeficientes MFCC (Mel Frequency Cepstral Coefficients) así como los coeficientes dinámicos correspondientes. Además, se ha añadido un procedimiento para construir un contexto para cada uno de los vectores de parámetros. Por último, se ha realizado una búsqueda y posterior selección de una librería matlab para la implementación de MLP (Multi-Layer Perceptrons) con los requisitos necesarios para su posterior integración con los HMM. Así finalmente, se ha implementado un módulo de estimación de las probabilidades a posteriori de los vectores anteriormente descritos dada las 28 posibles clases de fonemas de nuestro entorno de experimentación.
In this project, we have implemented the first steps of an Automatic Speech Recognizer (ASR) in Matlab employing a hybrid ANN/HMM (Artificial Neural Networks / Hidden Markov Models) scheme. In particular, modules for the acquisition, feature extraction and acoustic modeling (partly) have been implemented. Standard Matlab libraries have been employed for the acquisition module enabling the sequential reading of the well known ISOLET database. Then, Voicebox, a library specifically designed for speech processing, has been employed for the computation of MFCC (Mel Frequency Cepstral Coefficients). Besides, a procedure for the construction of an acoustical context for each of the feature vectors has been included. Finally, a search process and subsequent selection of a neural network matlab library for the implementation of MLP (Multi-Layer Perceptrons) with the requirements needed for the foreseen integration into HMM has been carried out. Lastly, the 'a posteriori' probabilities estimation module for each of the feature vectors previously described given the 28 possible phonetic labels of our experimental testbed was implemented.
Description
Keywords
Reconocimiento de voz, MATLAB (Programa de aplicación), Redes neuronales
Bibliographic citation