Robustez a Variabilidad de Canal en Reconocimiento de Patrones Acústicos con Aplicaciones en Enseñanza de Idiomas y Biometría
Tesis
Open/ Download
Publication date
2011Metadata
Show full item record
Cómo citar
Becerra Yoma, Néstor
Cómo citar
Robustez a Variabilidad de Canal en Reconocimiento de Patrones Acústicos con Aplicaciones en Enseñanza de Idiomas y Biometría
Author
Professor Advisor
Abstract
La robustez a la variabilidad en el canal de comunicaciones entre condiciones de entrenamiento y evaluación es uno de los más graves problemas que enfrentan los sistemas de procesamiento de patrones acústicos en aplicaciones reales. Además, por motivos de usabilidad, la cantidad y la duración de las elocuciones con las que debe operar una aplicación es limitada. Estas restricciones llevan a un escenario desfavorable: modelos con un bajo nivel de entrenamiento y elocuciones cortas en la etapa de prueba implican una reducción en la exactitud del sistema, situación que puede empeorar si existen diferencias de canal entre los procesos de entrenamiento y evaluación. De aquí deriva la importancia de generar sistemas de procesamiento de patrones acústicos robustos al canal de comunicaciones.
Dentro de esta tesis se presentan dos modelos para los efectos de la distorsión de canal que derivan en técnicas de cancelación. Se pone especial énfasis en aplicaciones que funcionan con datos limitados o señales de corta duración y así generar propuestas aplicables a situaciones reales. La estrategia que sigue el primer modelo desarrollado es obviar la hipótesis de invariabilidad en el tiempo de la distorsión de canal. El segundo esquema propuesto considera la interdependencia de las componentes espectrales al modelar la distorsión. Para evaluar las técnicas presentadas en esta tesis se utilizan dos plataformas de reconocimiento de patrones acústicos: a) un sistema biométrico basado en verificación de locutor texto-dependiente (TD-SV, Text Dependent - Speaker Verification); y b) un sistema de evaluación automática de pronunciación (CAPT, Computer Aided Pronunciation Training) para enseñanza de segundo idioma basado en tecnología de reconocimiento de voz.
La primera técnica propuesta es una transformación de características frame-por-frame para TD-SV con datos limitados. La transformación es aplicada como un filtro pasa-banda a lo largo del vector de características que representa la envolvente espectral. El objeto de este filtrado es reducir el efecto variable en el tiempo de la componente de distorsión de canal en el dominio cepstral, el que es generado por la dependencia de la respuesta del canal en la señal de voz. La transformación se define empleando análisis de importancia relativa en combinación con una función discriminativa basada en la razón de dispersión intra-locutor/inter-locutor.
A continuación, se presenta una nueva estrategia de compensación de la distorsión de canal en el dominio de las características basada en una aproximación polinomial aplicada a TD-SV y CAPT con datos limitados. El método modela la distorsión empleando una función polinomial en el dominio del logaritmo de las energías del banco de filtros Mel. La técnica modela la continuidad de la respuesta en frecuencia del canal y reduce el número de variables requeridas en la estimación de la distorsión al usar un modelo paramétrico. El método usa esquemas de búsqueda de vecino más cercano en la etapa de estimación, lo que mantiene controlada carga computacional.
Las técnicas presentadas consiguen sustanciales mejoras en los sistemas de TD-SV y CAPT al ser aplicadas de forma aislada y en combinación con técnicas convencionales para robustez a canal como CMN (Cepstral Mean Normalization) y RASTA (Relative Spectral). Cabe destacar que los métodos propuestos en esta tesis operan en el dominio de los parámetros acústicos de la señal de voz, por lo que son eventualmente aplicables a cualquier tarea de procesamiento de patrones acústicos.
Identifier
URI: https://repositorio.uchile.cl/handle/2250/102677
Collections