Robustez a Variabilidad de Canal en Reconocimiento de Patrones Acústicos con Aplicaciones en Enseñanza de Idiomas y Biometría
Professor Advisor
dc.contributor.advisor
Becerra Yoma, Néstor
es_CL
Author
dc.contributor.author
Garretón Vender, Claudio
es_CL
Staff editor
dc.contributor.editor
Facultad de Ciencias Físicas y Matemáticas
es_CL
Staff editor
dc.contributor.editor
Departamento de Ingeniería Eléctrica
es_CL
Associate professor
dc.contributor.other
Silva Sánchez, Jorge
Associate professor
dc.contributor.other
Busso Recabarren, Carlos
Associate professor
dc.contributor.other
Soto Gómez, Ismael
Admission date
dc.date.accessioned
2012-09-12T18:12:04Z
Available date
dc.date.available
2012-09-12T18:12:04Z
Publication date
dc.date.issued
2011
es_CL
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/102677
Abstract
dc.description.abstract
La robustez a la variabilidad en el canal de comunicaciones entre condiciones de entrenamiento y evaluación es uno de los más graves problemas que enfrentan los sistemas de procesamiento de patrones acústicos en aplicaciones reales. Además, por motivos de usabilidad, la cantidad y la duración de las elocuciones con las que debe operar una aplicación es limitada. Estas restricciones llevan a un escenario desfavorable: modelos con un bajo nivel de entrenamiento y elocuciones cortas en la etapa de prueba implican una reducción en la exactitud del sistema, situación que puede empeorar si existen diferencias de canal entre los procesos de entrenamiento y evaluación. De aquí deriva la importancia de generar sistemas de procesamiento de patrones acústicos robustos al canal de comunicaciones.
Dentro de esta tesis se presentan dos modelos para los efectos de la distorsión de canal que derivan en técnicas de cancelación. Se pone especial énfasis en aplicaciones que funcionan con datos limitados o señales de corta duración y así generar propuestas aplicables a situaciones reales. La estrategia que sigue el primer modelo desarrollado es obviar la hipótesis de invariabilidad en el tiempo de la distorsión de canal. El segundo esquema propuesto considera la interdependencia de las componentes espectrales al modelar la distorsión. Para evaluar las técnicas presentadas en esta tesis se utilizan dos plataformas de reconocimiento de patrones acústicos: a) un sistema biométrico basado en verificación de locutor texto-dependiente (TD-SV, Text Dependent - Speaker Verification); y b) un sistema de evaluación automática de pronunciación (CAPT, Computer Aided Pronunciation Training) para enseñanza de segundo idioma basado en tecnología de reconocimiento de voz.
La primera técnica propuesta es una transformación de características frame-por-frame para TD-SV con datos limitados. La transformación es aplicada como un filtro pasa-banda a lo largo del vector de características que representa la envolvente espectral. El objeto de este filtrado es reducir el efecto variable en el tiempo de la componente de distorsión de canal en el dominio cepstral, el que es generado por la dependencia de la respuesta del canal en la señal de voz. La transformación se define empleando análisis de importancia relativa en combinación con una función discriminativa basada en la razón de dispersión intra-locutor/inter-locutor.
A continuación, se presenta una nueva estrategia de compensación de la distorsión de canal en el dominio de las características basada en una aproximación polinomial aplicada a TD-SV y CAPT con datos limitados. El método modela la distorsión empleando una función polinomial en el dominio del logaritmo de las energías del banco de filtros Mel. La técnica modela la continuidad de la respuesta en frecuencia del canal y reduce el número de variables requeridas en la estimación de la distorsión al usar un modelo paramétrico. El método usa esquemas de búsqueda de vecino más cercano en la etapa de estimación, lo que mantiene controlada carga computacional.
Las técnicas presentadas consiguen sustanciales mejoras en los sistemas de TD-SV y CAPT al ser aplicadas de forma aislada y en combinación con técnicas convencionales para robustez a canal como CMN (Cepstral Mean Normalization) y RASTA (Relative Spectral). Cabe destacar que los métodos propuestos en esta tesis operan en el dominio de los parámetros acústicos de la señal de voz, por lo que son eventualmente aplicables a cualquier tarea de procesamiento de patrones acústicos.