Evaluación Automática de Pronunciación de Frases para Hablantes No Nativos
Tesis
Publication date
2011Metadata
Show full item record
Cómo citar
Becerra Yoma, Néstor
Cómo citar
Evaluación Automática de Pronunciación de Frases para Hablantes No Nativos
Professor Advisor
Abstract
Este trabajo propone una nueva alternativa para la evaluación automática de pronunciación de frases. Se evalúa cada una de las palabras que componen la oración para luego obtener una calificación objetiva para toda la frase. Además, no se requieren estudios previos de errores comunes de pronunciación del lenguaje materno.
La evaluación automática de pronunciación se enmarca dentro de los sistemas de aprendizaje de idiomas asistido por computadora (CALL Computed Aided Language Learning). Dentro de las plataformas CALL, existe un área enfocada a mejorar uno de los aspectos fundamentales del habla: la pronunciación. El entrenamiento de pronunciación asistido por computadoras (CAPT Computer Aided Pronunciation Training) invita a los estudiantes a mejorar la calidad del lenguaje hablado mediante la repetición y evaluación automática. Estos sistemas funcionan como un profesor virtual y buscan ser una herramienta complementaria a las clases tradicionales. En los últimos años ha habido grandes avances en esta área, en particular con palabras aisladas, donde se alcanzan altos niveles de correlación entre la evaluación entregada por la tecnología de reconocimiento de voz (ASR, Automatic Speech Recognition) y los evaluadores expertos.
La literatura generalmente considera toda la frase como una única unidad a evaluar, lo cual presenta ciertas limitaciones, tales como: no se tiene en cuenta que la calidad de la pronunciación puede variar entre las palabras que conforman la oración y la evaluación de una palabra aislada es diferente si está inmersa dentro de una oración. En este trabajo se plantea la viabilidad de la evaluación de pronunciación de frases en base a la calificación de las palabras que las conforman. Para lograr esto se generan modelos competidores para oraciones de manera no supervisada y se prueban variantes fonéticas para mejorar la exactitud de la evaluación. Además, se proponen diferentes criterios subjetivos para ampliar la evaluación de sentencias, unos más exigentes que otros.
Como resultado se obtuvieron correlaciones en el rango 0.4 a 0.52 entre la evaluación entregada por la tecnología ASR y los evaluadores expertos. El mejor resultado se obtuvo al ocupar el promedio de las calificaciones obtenidas por palabras para generar la calificación por frase con 5 niveles de evaluación. En este caso la inclusión en el modelo competitivo de variantes fonéticas basadas en el lenguaje materno significó un aumento de 10.8% entre la correlación subjetiva entregada por los expertos y la calificación objetiva extraída desde el sistema ASR al compararla con el modelo competitivo sin esta variante fonética.
Finalmente, cabe destacar que la evaluación de pronunciación basada en la extracción de características de las palabras que la conforman es una opción viable ya que alcanza correlaciones entre los evaluadores expertos y la tecnología ASR dentro del rango encontrado en la literatura. Esta metodología obtiene resultados suficientes para ser utilizada como una herramienta complementaria a las clases tradicionales.
Identifier
URI: https://repositorio.uchile.cl/handle/2250/102568
Collections