Aplicación de Tecnologías de Robustez en Reconocimiento de Voz a la Enseñanza de Segundo Idioma

Ravest Catalán, Pablo Andrés

Professor Advisor	dc.contributor.advisor	Becerra Yoma, Néstor	es_CL
Author	dc.contributor.author	Ravest Catalán, Pablo Andrés	es_CL
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas	es_CL
Staff editor	dc.contributor.editor	Departamento de Ingeniería Eléctrica	es_CL
Associate professor	dc.contributor.other	Molina Sánchez, Carlos
Associate professor	dc.contributor.other	Wuth Sepúlveda, Jorge
Admission date	dc.date.accessioned	2012-09-12T18:17:36Z
Available date	dc.date.available	2012-09-12T18:17:36Z
Publication date	dc.date.issued	2009	es_CL
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/103402
Abstract	dc.description.abstract	El objetivo principal de esta memoria es mejorar el rendimiento de un sistema de evaluación de pronunciación automático basado en ASR (Automatic Speech Recognition) frente a cambios de locutor. Para lograr esto se propone la implementación de dos técnicas de robustez existentes en la literatura especializada: MLLR (Maximum Likelihood Linear Regression), que realiza una transformación lineal de los parámetros del modelo acústico para adaptarlo a un locutor específico; y VTLN (Vocal Tract Length Normalization), que normaliza el banco de filtros de Mel utilizado en la parametrización de las señales para compensar por diferencias en el tracto vocal de los locutores. Estos métodos se aplican de forma no supervisada y considerando una cantidad de información de adaptación limitada, debido a las exigencias que presentan los sistemas de CAPT (Computer Aided Pronunciation Training). Este documento presenta experimentos con estas técnicas en ASR y CAPT considerando señales de locutores con distinto manejo del inglés y bajo variadas condiciones de ruido. En ASR se obtienen disminuciones del WER (Word Error Rate) de hasta un 30,56 % con MLLR de 25 señales y 16,23 % con VTLN de 1 señal. Los métodos muestran ser eficaces incluso al considerar pocas señales de adaptación, obteniéndose mejoras promedio del WER de 19,4 % y 6,34 % en MLLR con 5 señales y VTLN con 1 señal respectivamente. En evaluación de pronunciación, VTLN produce mejoras promedio del coeficiente de correlación entre los resultados entregados por el sistema y la evaluación esperada de 3,1 % y 5,01 % para dos bases de datos probadas. MLLR fue incapaz de aumentar la correlación debido a problemas con el modelo competitivo del CAPT y al modo de aplicación no supervisado.
Lenguage	dc.language.iso	es	es_CL
Publisher	dc.publisher	Universidad de Chile	es_CL
Publisher	dc.publisher	Programa Cybertesis	es_CL
Type of license	dc.rights	Ravest Catalán, Pablo Andrés	es_CL
Keywords	dc.subject	Electricidad	es_CL
Keywords	dc.subject	Reconocimiento automático de la voz	es_CL
Keywords	dc.subject	Modelos acústicos	es_CL
Keywords	dc.subject	Adquisición de otra lengua	es_CL
Keywords	dc.subject	Enseñanza	es_CL
Título	dc.title	Aplicación de Tecnologías de Robustez en Reconocimiento de Voz a la Enseñanza de Segundo Idioma	es_CL
Document type	dc.type	Tesis

Files in this item

Name:: ravest_p.pdf
Size:: 1.652Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Pregrado
Tesis Pregrado

Show simple item record