Show simple item record

Professor Advisordc.contributor.advisorBecerra Yoma, Néstores_CL
Professor Advisordc.contributor.advisorGarretón Vender, Claudioes_CL
Professor Advisordc.contributor.advisorMolina Sánchez, Carloses_CL
Authordc.contributor.authorCatalán Ludwig, Ignacioes_CL
Staff editordc.contributor.editorFacultad de Ciencias Físicas y Matemáticases_CL
Staff editordc.contributor.editorDepartamento de Ingeniería Eléctricaes_CL
Admission datedc.date.accessioned2012-09-12T18:18:25Z
Available datedc.date.available2012-09-12T18:18:25Z
Publication datedc.date.issued2011es_CL
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/104255
Abstractdc.description.abstractEl reconocimiento de voz (ASR, Automatic Speech Recognition) consiste en traducir a texto una señal de voz. Uno de los mayores problemas de los sistemas ASR son las variaciones en el locutor. La variabilidad entre las señales generadas por distintos hablantes al pronunciar una misma palabra es mucho mayor que la variabilidad entre señales de un único usuario pronunciando la misma palabra. Esto explica que los sistemas de ASR entrenados para un solo locutor tengan una tasa de aciertos superior a un sistema independiente del hablante. El objetivo principal de la memoria es mejorar la robustez a la variabilidad de locutor en ASR. Para enfrentar este problema, una técnica ampliamente usada en la literatura es la normalización del largo del tracto vocal (VTLN, Vocal Tract Lenght Normalization). VTLN consiste en un ajuste (warping) del eje de frecuencias usado para parametrizar la señal de voz. Las funciones más usadas para realizar este ajuste dependen de un único parámetro. En aplicaciones típicas de VTLN es necesario hacer una búsqueda en barrido para poder encontrar el parámetro de normalización óptimo. En consecuencia se deben calcular las características de la señal para cada nivel de warping a evaluar, generando una carga computacional importante en los sistemas de ASR. En esta memoria se propone una nueva técnica que modela el warping que se hace sobre el banco de filtros con VTLN como una interpolación lineal de energías de filtros vecinos. Este método, denominado IFE-VTLN, es comparado con un esquema estándar de VTLN. Con el procedimiento mencionado es posible encontrar el parámetro de normalización óptimo tanto mediante un barrido como analíticamente. Al usar el modo analítico, se mejora en más de 10 veces el tiempo requerido en comparación con VTLN estándar con optimización en barrido. Al usar la técnica propuesta con una búsqueda exhaustiva se obtienen disminuciones en el WER (Word Error Rate) de un 46.3% y un 38.7% cuando se compara con el sistema base y VTLN estándar, respectivamente. Al buscar analíticamente la solución se obtienen disminuciones en el WER (Word Error Rate) de un 31.3% cuando se compara VTLN estándar. Además se propone una extensión del esquema IFE-VTLN, llamado IFE-SA, en el cual se le añaden grados de libertad al modelo, permitiendo que cada filtro se interpole mediante un parámetro de ajuste. Es así necesario encontrar un vector de características de normalización óptimo, que solamente puede ser encontrado mediante un procedimiento analítico. Los resultados preliminares con IFE-SA muestran disminuciones en el WER de un 18.1% y 6.1% cuando se compara con el sistema base y VTLN estándar respectivamente. Se concluye que las técnicas propuestas son más eficientes que VTLN estándar tanto en reducción de WER como en eficiencia computacional.
Lenguagedc.language.isoeses_CL
Publisherdc.publisherUniversidad de Chilees_CL
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/
Keywordsdc.subjectElectricidades_CL
Keywordsdc.subjectReconocimiento automático de la vozes_CL
Keywordsdc.subjectSistemas de procesamiento de la vozes_CL
Keywordsdc.subjectReconocimiento de modeloses_CL
Keywordsdc.subjectVTLNes_CL
Títulodc.titleRobustez a Variabilidad de Locutor en Reconocimiento de Voz con VTLNes_CL
Document typedc.typeTesis


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0