Mostrar el registro sencillo del ítem

Profesor guíadc.contributor.advisorBecerra Yoma, Néstor es_CL
Autordc.contributor.authorRavest Catalán, Pablo Andrés es_CL
Editor personaldc.contributor.editorFacultad de Ciencias Físicas y Matemáticases_CL
Editor personaldc.contributor.editorDepartamento de Ingeniería Eléctricaes_CL
Profesor colaboradordc.contributor.otherMolina Sánchez, Carlos
Profesor colaboradordc.contributor.otherWuth Sepúlveda, Jorge
Fecha ingresodc.date.accessioned2012-09-12T18:17:36Z
Fecha disponibledc.date.available2012-09-12T18:17:36Z
Fecha de publicacióndc.date.issued2009es_CL
Identificadordc.identifier.urihttps://repositorio.uchile.cl/handle/2250/103402
Resumendc.description.abstractEl objetivo principal de esta memoria es mejorar el rendimiento de un sistema de evaluación de pronunciación automático basado en ASR (Automatic Speech Recognition) frente a cambios de locutor. Para lograr esto se propone la implementación de dos técnicas de robustez existentes en la literatura especializada: MLLR (Maximum Likelihood Linear Regression), que realiza una transformación lineal de los parámetros del modelo acústico para adaptarlo a un locutor específico; y VTLN (Vocal Tract Length Normalization), que normaliza el banco de filtros de Mel utilizado en la parametrización de las señales para compensar por diferencias en el tracto vocal de los locutores. Estos métodos se aplican de forma no supervisada y considerando una cantidad de información de adaptación limitada, debido a las exigencias que presentan los sistemas de CAPT (Computer Aided Pronunciation Training). Este documento presenta experimentos con estas técnicas en ASR y CAPT considerando señales de locutores con distinto manejo del inglés y bajo variadas condiciones de ruido. En ASR se obtienen disminuciones del WER (Word Error Rate) de hasta un 30,56 % con MLLR de 25 señales y 16,23 % con VTLN de 1 señal. Los métodos muestran ser eficaces incluso al considerar pocas señales de adaptación, obteniéndose mejoras promedio del WER de 19,4 % y 6,34 % en MLLR con 5 señales y VTLN con 1 señal respectivamente. En evaluación de pronunciación, VTLN produce mejoras promedio del coeficiente de correlación entre los resultados entregados por el sistema y la evaluación esperada de 3,1 % y 5,01 % para dos bases de datos probadas. MLLR fue incapaz de aumentar la correlación debido a problemas con el modelo competitivo del CAPT y al modo de aplicación no supervisado.
Idiomadc.language.isoeses_CL
Publicadordc.publisherUniversidad de Chilees_CL
Publicadordc.publisherPrograma Cybertesises_CL
Tipo de licenciadc.rightsRavest Catalán, Pablo Andréses_CL
Palabras clavesdc.subjectElectricidades_CL
Palabras clavesdc.subjectReconocimiento automático de la vozes_CL
Palabras clavesdc.subjectModelos acústicoses_CL
Palabras clavesdc.subjectAdquisición de otra lenguaes_CL
Palabras clavesdc.subjectEnseñanzaes_CL
Títulodc.titleAplicación de Tecnologías de Robustez en Reconocimiento de Voz a la Enseñanza de Segundo Idiomaes_CL
Tipo de documentodc.typeTesis


Descargar archivo

Icon

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem