Publication:
Contribuciones al reconocimiento robusto de habla

Loading...
Thumbnail Image
Identifiers
Publication date
2007-12
Defense date
2007-12-17
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
En esta tesis doctoral abordamos el problema del reconocimiento robusto de habla. En primer lugar, estudiamos el efecto de los ruidos aditivos sobre el proceso de reconocimiento. Mostramos que el deterioro de la eficacia de los reconocedores se debe, en parte, al excesivo poder de decisión que recae sobre características de entrada que están contaminadas de forma muy severa (outliers). El método que denominamos bounded-distance HMM (BD-HMM) es capaz de limitar la contribución de estas muestras en el reconocedor. Sin embargo, BD-HMM no actúa sobre el resto de observaciones que, sin estar tan altamente contaminadas, sí que están afectadas por la presencia de ruidos aditivos. Por el contrario, sustracción espectral actúa sobre todas las observaciones pero presenta el inconveniente de introducir distorsiones que afectan negativamente a las prestaciones de los reconocedores. En esta tesis mostramos que estas distorsiones producen un aumento del número de outliers. De este modo, encontramos que BD-HMM y sustracción espectral se complementan perfectamente. Nuestros experimentos muestran que esta combinación generalmente supera las tasas de reconocimiento que consiguen tanto BD-HMM como sustracción espectral cuando se aplican de forma aislada. De hecho, las mejoras introducidas por la combinación propuesta, especialmente a SNRs bajas y medias, suelen ser superiores a la suma de las mejoras conseguidas por BD-HMM y sustracción espectral. Por otro lado, la estimación de los parámetros limpios que realiza sustracción espectral deja un cierto nivel de incertidumbre que los reconocedores convencionales no tienen en consideración. En esta tesis modificamos el proceso de reconocimiento para tener en cuenta esta incertidumbre cuando los sistemas se diseñan empleando la parametrización Frequency Filtered (FF). Al permanecer esta parametrización en el dominio del log-espectro, los métodos propuestos se pueden interpretar de una forma sencilla como métodos de ponderación espectral que asignan mayor poder discriminativo a las frecuencias del espectro más fiables. Los resultados que mostramos en esta tesis apoyan la necesidad de incorporar información sobre la incertidumbre de las observaciones para aumentar la robustez del proceso de reconocimiento. Por último, en esta tesis abordamos el problema del reconocimiento de habla cuando la señal de voz es transmitida a través de un canal inalámbrico. Las distorsiones que este tipo de entornos introducen en los parámetros de entrada son más difíciles de modelar que en el caso de tener ruidos aditivos y, por ello, su efecto se ha estudiado de forma experimental en el dominio del espectro de modulación. A la vista de nuestras observaciones, proponemos filtrar paso-banda la evolución temporal de los parámetros para aumentar la robustez del sistema reconocedor. Nuestra propuesta se evalúa para dos parametrizaciones bajo canales con diferentes tasas de error de bit (Bit Error Rate, BER) típicas de este tipo de comunicaciones inalámbricas: por un lado, filtramos paso-banda la evolución temporal de los parámetros LP-MCC y, por otro, sustituimos el filtro paso-banda RASTA-PLP por otro cuya sección paso bajo es más abrupta. Nuestros resultados encuentran mejores resultados con las secuencias filtradas. Finalmente, aplicamos la técnica BD-HMM para reducir el impacto de los outliers en este tipo de entornos inalámbricos. Nuestros resultados muestran que BD-HMM introduce importantes mejoras para canales con altas tasas de error de bit. ____________________________________________
In this Ph.D. Thesis we address the problem of robust speech recognition.We start studying the effects of additive noises. We show that one of the causes contributing to the loss of performance in presence of noise is the fact that conventional recogniser take into consideration feature values that are actually outliers.We propose a method that we call Bounded-Distance HMM (BD-HMM) to mitigate the outlier contribution to the recogniser decision. Since BD-HMM just deals with outliers, leaving the remaining features unaltered, we suggest to combine it with other techniques that work on all the features. In particular, we propose to use spectral subtraction as feature enhancement technique, since it complements BD-HMM well. As we prove in the Thesis, spectral subtraction introduces some artifacts that cause a larger number of outliers that can be easily countered by BD-HMM. Our experimental results show that the combination of these techniques generally outperforms both BD-HMM and spectral subtraction individually. Furthermore, the obtained improvements, especially for low and medium SNRs, are generally larger than the sum of the improvements individually obtained by BD-HMM and spectral subtraction. On the other hand, the spectral subtraction-based estimates of the original parameters generate certain level of uncertainty that is not usually taken into account by the decoding algorithm. This Thesis takes into consideration this uncertainty in the recogniser for a specific type of features: the Frequency Filtered parameterization. Moreover, as this parameterization remains in the log-frequency domain, the proposed method admits a simple interpretation as a spectral weighting method that assigns more importance to the most reliable spectral components. Our results show the convenience of incorporating this information in the decoding process. Finally, in this Thesis we tackle the problem of speech recognition when wireless speech communication systems are involved. The distortions caused by this environment are more difficult to model analytically than the ones caused by additive noises. Thus, we experimentally study their effects on the feature spectra and we propose to band-pass filter the recognition features to improve the ASR performance. We have evaluated our proposal in two configurations at different Bit Error Rates (BER) typical of these channels: band-pass filtering the LP-MFCC parameters and a modification of the RASTA-PLP using a sharper low-pass section. Both filtered parameterizations perform consistently better than the unfiltered ones. Additionally, we remove the impact of the outliers by applying BD-HMM, what results in larger improvements for high BER channels.
Description
Keywords
Reconocimiento de voz, Reconocimiento del habla
Bibliographic citation
Collections