Robustez a Variabilidad de Locutor en Reconocimiento de Voz con VTLN
Professor Advisor
dc.contributor.advisor
Becerra Yoma, Néstor
es_CL
Professor Advisor
dc.contributor.advisor
Garretón Vender, Claudio
es_CL
Professor Advisor
dc.contributor.advisor
Molina Sánchez, Carlos
es_CL
Author
dc.contributor.author
Catalán Ludwig, Ignacio
es_CL
Staff editor
dc.contributor.editor
Facultad de Ciencias Físicas y Matemáticas
es_CL
Staff editor
dc.contributor.editor
Departamento de Ingeniería Eléctrica
es_CL
Admission date
dc.date.accessioned
2012-09-12T18:18:25Z
Available date
dc.date.available
2012-09-12T18:18:25Z
Publication date
dc.date.issued
2011
es_CL
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/104255
Abstract
dc.description.abstract
El reconocimiento de voz (ASR, Automatic Speech Recognition) consiste en traducir a texto una señal de voz. Uno de los mayores problemas de los sistemas ASR son las variaciones en el locutor. La variabilidad entre las señales generadas por distintos hablantes al pronunciar una misma palabra es mucho mayor que la variabilidad entre señales de un único usuario pronunciando la misma palabra. Esto explica que los sistemas de ASR entrenados para un solo locutor tengan una tasa de aciertos superior a un sistema independiente del hablante.
El objetivo principal de la memoria es mejorar la robustez a la variabilidad de locutor en ASR. Para enfrentar este problema, una técnica ampliamente usada en la literatura es la normalización del largo del tracto vocal (VTLN, Vocal Tract Lenght Normalization). VTLN consiste en un ajuste (warping) del eje de frecuencias usado para parametrizar la señal de voz. Las funciones más usadas para realizar este ajuste dependen de un único parámetro. En aplicaciones típicas de VTLN es necesario hacer una búsqueda en barrido para poder encontrar el parámetro de normalización óptimo. En consecuencia se deben calcular las características de la señal para cada nivel de warping a evaluar, generando una carga computacional importante en los sistemas de ASR.
En esta memoria se propone una nueva técnica que modela el warping que se hace sobre el banco de filtros con VTLN como una interpolación lineal de energías de filtros vecinos. Este método, denominado IFE-VTLN, es comparado con un esquema estándar de VTLN. Con el procedimiento mencionado es posible encontrar el parámetro de normalización óptimo tanto mediante un barrido como analíticamente. Al usar el modo analítico, se mejora en más de 10 veces el tiempo requerido en comparación con VTLN estándar con optimización en barrido. Al usar la técnica propuesta con una búsqueda exhaustiva se obtienen disminuciones en el WER (Word Error Rate) de un 46.3% y un 38.7% cuando se compara con el sistema base y VTLN estándar, respectivamente. Al buscar analíticamente la solución se obtienen disminuciones en el WER (Word Error Rate) de un 31.3% cuando se compara VTLN estándar. Además se propone una extensión del esquema IFE-VTLN, llamado IFE-SA, en el cual se le añaden grados de libertad al modelo, permitiendo que cada filtro se interpole mediante un parámetro de ajuste. Es así necesario encontrar un vector de características de normalización óptimo, que solamente puede ser encontrado mediante un procedimiento analítico. Los resultados preliminares con IFE-SA muestran disminuciones en el WER de un 18.1% y 6.1% cuando se compara con el sistema base y VTLN estándar respectivamente. Se concluye que las técnicas propuestas son más eficientes que VTLN estándar tanto en reducción de WER como en eficiencia computacional.