RT Dissertation/Thesis
T1 Máquinas de vectores soporte para reconocimiento robusto de habla
A1 Solera Ureña, Rubén
AB El objetivo de esta tesis doctoral es estudiar la viabilidad de la aplicación práctica de la máquina de vectores soporte (support vector machine, SVM) en el campo del reconocimiento automático de habla (RAH). Tanto la formulación teórica de esta herramienta como los resultados conseguidos en otros ámbitos han llevado a considerarla una opción apropiada para solventar algunos de los problemas presentes en los reconocedores de habla actuales. En concreto, esta tesis dirige su atención al problema del reconocimiento robusto de habla en condiciones acústicas adversas. Una primera líea de trabajo se centra en la etapa de modelado acústico de los reconocedores de habla, en la que los modelos de mezclas de Gaussianas (Gaussian mixture models, GMMs) empleados tradicionalmente se sustituyen por una máquina de vectores soporte multiclase para clasificación (support vector classifier, SVC). Dada una cierta observación, esta SVM se encarga de estimar la probabilidad a posteriori de cada una de las clases acústicas consideradas. Este sistema híbrido SVM/HMM, usando un contexto acústico adecuado y un conjunto de datos de entrenamiento mucho menor que los sistemas convencionales, obtiene resultados prometedores a costa de una complejidad computacional mayor. Con el objetivo de reducir dicha complejidad y lograr así que el reconocedor híbrido opere en tiempo real, se propone el uso de SVMs 'compactas' entrenadas mediante un procedimiento de mínimos cuadrados ponderados (weighted least squares, WLS). El método empleado permite fijar de antemano la complejidad de la máquina de vectores soporte imponiendo un modelo reducido sobre el vector de pesos que define el hiperplano de separación. De esta forma, es posible controlar el coste computacional en la etapa de reconocimiento sin que ello suponga una pérdida apreciable en las prestaciones del sistema SVM/HMM. La segunda línea de trabajo en esta tesis se centra en la etapa de parametrización de la señal de voz. En este caso, se propone el uso de un método no paramétrico de estimación espectral basado en la máquina de vectores soporte para regresión (support vector regressor, SVR), como etapa previa a la obtención de los coeficientes cepstrales. La posibilidad de definir distintas regiones en la función de coste dependiendo de la magnitud del error confiere a la SVR una mayor robustez en presencia de ruido impulsivo, situación relativamente común en el ámbito del reconocimiento automático de habla. Los resultados experimentales obtenidos reflejan una clara mejora respecto al método convencional de estimación espectral cuando la señal de voz está contaminada con ruido impulsivo de corta duración. Las propuestas que se describen en esta tesis doctoral se han evaluado sobre una tarea de reconocimiento de dígitos conectados en castellano, con una complejidad moderada. Esto ha facilitado el desarrollo de la fase experimental del trabajo, obteniéndose resultados significativos que avalan la viabilidad del uso en el campo del RAH de los métodos presentados en esta tesis doctoral. Finalmente, se han identificado ciertas líneas de trabajo futuro con el objetivo de que las técnicas propuestas lleguen a ser totalmente viables y competitivas. ----------------------------------------------------------------------------------------------------------------------------------------------------------------------
AB The objective of this Ph.D. thesis is to study the viability of the practical application of support vector machines (SVM) in the  field of automatic speech recognition(ASR). Both the theoretical formulation of this tool and the performances achievedin other fields of application have led us to consider the SVM as an appropriate alternative for solving some of the problems exhibited by current speech recognizers.Namely, this thesis focuses on the problem of robust speech recognition in adverseenvironmental conditions.The first research line concentrates on the acoustic modelling stage of speechrecognizers, where the typical Gaussian mixture models (GMMs) are substituted bya multiclass support vector machine for classification (support vector classi er, SVC).Given an input vector, this SVM estimates the a-posteriori probabilities for eachof the acoustic classes considered in the problem. This hybrid SVM/HMM system,using an appropriate acoustic context length and a much smaller training datasetthan conventional recognizers, achieves encouraging performance levels at the cost ofa higher computational complexity.With the aim of reducing its complexity and attaining a real-time operation of thehybrid recognizer, we propose the use of 'compact' SVMs, which are trained using aweighted least squares (WLS) method. The procedure employed in this work allowsus to  x in advance the complexity of the support vector machine by imposing areduced model on the weight vector that de nes the separating hyperplane. In thisway, it is possible to control the computational cost at the recognition stage while keeping the overall performance of the SVM/HMM system.The second research line in this thesis focuses on the parameterization stage of thespeech recognizer. Here, we propose the use of a non-parametric spectral estimationmethod based on the support vector machine for regression (support vector regressor,SVR) as a previous stage to the calculation of the cepstral coe cients. The possibilityto define several regions in the cost function depending on the magnitude of the error provides a higher robustness to the SVR in the presence of impulsive noise, which is a common situation in the  field of automatic speech recognition. Our experimental results show substantial improvements with respect to the conventional spectral estimationprocedure when the speech signal is corrupted with short-duration impulsivenoise.The proposals described in this Ph.D. thesis have been assessed for a Spanishconnected-digit recognition task, with a moderate complexity. This has facilitatedthe development of the experimental stage, while achieving signi cant results thatsupport the viability of the use of the methods presented in this Ph.D. thesis in the eld of ASR. Finally, further research lines have been identi ed that aim at makingthe proposed techniques fully practical and competitive.
YR 2011
FD 2011
LK https://hdl.handle.net/10016/12577
UL https://hdl.handle.net/10016/12577
LA spa
DS e-Archivo
RD 1 sept. 2024