Publication:
Reconocedor de habla basado en la extracción de características articulatorias

Loading...
Thumbnail Image
Identifiers
Publication date
2015-04
Defense date
2015-04-29
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Los sistemas de reconocimiento automático de habla persiguen proporcionar un interfaz natural entre máquinas y humanos mediante el uso de la voz. En muchos casos, se adopta la estrategia de imitar en la medida de lo posible los mecanismos de comunicación entre humanos. La implementación del sistema es, pues, muy importante y debe tener en cuenta los diversos problemas a los que se enfrenta, como el ruido aditivo o la variabilidad del hablante. El trabajo realizado en este PFC tiene como objetivo ensayar nuevas técnicas de extracción de características haciendo uso de información articulatoria, para averiguar si el sistema resultante tiene mejores prestaciones. Para llevar a cabo dicha tarea, utilizaremos la extracción de las características articulatorias de la voz, utilizando como clasificador un modelo híbrido con redes neuronales (perceptrones multicapa). Para la extracción de las características se crearon 7 clasificadores (a los que luego se añadió un octavo) para cada uno de los 7 niveles articulatorios que definimos, donde cada uno de ellos tomará, a su vez, diferentes valores atendiendo a la naturaleza del sonido emitido. Se consideraron además las diferencias que existen entre un entorno ideal y uno real (añadiendo ruido aditivo), para evaluar la pérdida de prestaciones existente. Los resultados obtenidos no sólo nos dan una visión general del sistema en cuanto al rendimiento global del mismo, sino que también nos muestran qué características de la voz son más robustas frente a alteraciones procedentes del ruido ambiente.
The systems of automatic speech recognition aim to provide a natural interface between machines and human beings by the use of the voice. The strategy of imitating the mechanisms of communication between human beings is adopted -as far as possible- in many cases. The implementation of the system is very important and has to take into account the different problems that it faces, like ear noise or the variation of the speaker’s voice. The work carried out on this Final Year Project aims to test new feature extraction techniques by using articulatory information, and so resolves if the resulting system has the best performance. To do this, we will extract the articulatory characteristics of the voice, using, as a sorter, a hybrid model with neuronal networks (multilayer perceptrons). For the extraction of the characteristics, 7 classifiers were created (then an eight one was added) for each of the 7 articulatory levels defined. Each of them will take different values relating to the nature of the sound issued. Also, the difference between an ideal surrounding and a real one (added noise) will be studied, in order to evaluate the losses of the existing benefits. The results obtained will not only give us a general vision of the system’s overall performance, but it will also show us which characteristics of the voice are more robust against changes in the transmission channel.
Description
Keywords
Reconocimiento de voz, Lingüística computacional, Redes neuronale, Sistema de reconocimiento híbrido
Bibliographic citation