Robustez a Variabilidad de Canal en Reconocimiento de Patrones Acústicos con Aplicaciones en Enseñanza de Idiomas y Biometría

Garretón Vender, Claudio

Professor Advisor	dc.contributor.advisor	Becerra Yoma, Néstor	es_CL
Author	dc.contributor.author	Garretón Vender, Claudio	es_CL
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas	es_CL
Staff editor	dc.contributor.editor	Departamento de Ingeniería Eléctrica	es_CL
Associate professor	dc.contributor.other	Silva Sánchez, Jorge
Associate professor	dc.contributor.other	Busso Recabarren, Carlos
Associate professor	dc.contributor.other	Soto Gómez, Ismael
Admission date	dc.date.accessioned	2012-09-12T18:12:04Z
Available date	dc.date.available	2012-09-12T18:12:04Z
Publication date	dc.date.issued	2011	es_CL
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/102677
Abstract	dc.description.abstract	La robustez a la variabilidad en el canal de comunicaciones entre condiciones de entrenamiento y evaluación es uno de los más graves problemas que enfrentan los sistemas de procesamiento de patrones acústicos en aplicaciones reales. Además, por motivos de usabilidad, la cantidad y la duración de las elocuciones con las que debe operar una aplicación es limitada. Estas restricciones llevan a un escenario desfavorable: modelos con un bajo nivel de entrenamiento y elocuciones cortas en la etapa de prueba implican una reducción en la exactitud del sistema, situación que puede empeorar si existen diferencias de canal entre los procesos de entrenamiento y evaluación. De aquí deriva la importancia de generar sistemas de procesamiento de patrones acústicos robustos al canal de comunicaciones. Dentro de esta tesis se presentan dos modelos para los efectos de la distorsión de canal que derivan en técnicas de cancelación. Se pone especial énfasis en aplicaciones que funcionan con datos limitados o señales de corta duración y así generar propuestas aplicables a situaciones reales. La estrategia que sigue el primer modelo desarrollado es obviar la hipótesis de invariabilidad en el tiempo de la distorsión de canal. El segundo esquema propuesto considera la interdependencia de las componentes espectrales al modelar la distorsión. Para evaluar las técnicas presentadas en esta tesis se utilizan dos plataformas de reconocimiento de patrones acústicos: a) un sistema biométrico basado en verificación de locutor texto-dependiente (TD-SV, Text Dependent - Speaker Verification); y b) un sistema de evaluación automática de pronunciación (CAPT, Computer Aided Pronunciation Training) para enseñanza de segundo idioma basado en tecnología de reconocimiento de voz. La primera técnica propuesta es una transformación de características frame-por-frame para TD-SV con datos limitados. La transformación es aplicada como un filtro pasa-banda a lo largo del vector de características que representa la envolvente espectral. El objeto de este filtrado es reducir el efecto variable en el tiempo de la componente de distorsión de canal en el dominio cepstral, el que es generado por la dependencia de la respuesta del canal en la señal de voz. La transformación se define empleando análisis de importancia relativa en combinación con una función discriminativa basada en la razón de dispersión intra-locutor/inter-locutor. A continuación, se presenta una nueva estrategia de compensación de la distorsión de canal en el dominio de las características basada en una aproximación polinomial aplicada a TD-SV y CAPT con datos limitados. El método modela la distorsión empleando una función polinomial en el dominio del logaritmo de las energías del banco de filtros Mel. La técnica modela la continuidad de la respuesta en frecuencia del canal y reduce el número de variables requeridas en la estimación de la distorsión al usar un modelo paramétrico. El método usa esquemas de búsqueda de vecino más cercano en la etapa de estimación, lo que mantiene controlada carga computacional. Las técnicas presentadas consiguen sustanciales mejoras en los sistemas de TD-SV y CAPT al ser aplicadas de forma aislada y en combinación con técnicas convencionales para robustez a canal como CMN (Cepstral Mean Normalization) y RASTA (Relative Spectral). Cabe destacar que los métodos propuestos en esta tesis operan en el dominio de los parámetros acústicos de la señal de voz, por lo que son eventualmente aplicables a cualquier tarea de procesamiento de patrones acústicos.
Lenguage	dc.language.iso	es	es_CL
Publisher	dc.publisher	Universidad de Chile	es_CL
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/
Keywords	dc.subject	Electricidad	es_CL
Keywords	dc.subject	Sistemas de procesamiento de la voz	es_CL
Keywords	dc.subject	Reconocimiento automático de la voz	es_CL
Keywords	dc.subject	Adquisición de otra lengua--Enseñanza	es_CL
Keywords	dc.subject	Biometría	es_CL
Título	dc.title	Robustez a Variabilidad de Canal en Reconocimiento de Patrones Acústicos con Aplicaciones en Enseñanza de Idiomas y Biometría	es_CL
Document type	dc.type	Tesis

Files in this item

Name:: cf-garreton_cv.pdf
Size:: 931.8Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0