Compensación no Supervisada de Variabilidad Intra-Locutor y Ruido en Reconocimiento de Patrones de Voz
Professor Advisor
dc.contributor.advisor
Becerra Yoma, Néstor
es_CL
Author
dc.contributor.author
Garretón Vender, Claudio
es_CL
Staff editor
dc.contributor.editor
Facultad de Ciencias Físicas y Matemáticas
es_CL
Staff editor
dc.contributor.editor
Departamento de Ingeniería Eléctrica
es_CL
Associate professor
dc.contributor.other
Baloian Tataryan, Nelson
Associate professor
dc.contributor.other
Velásquez Silva, Juan
Associate professor
dc.contributor.other
Soto Gómez, Ismael
Admission date
dc.date.accessioned
2012-09-12T18:12:16Z
Available date
dc.date.available
2012-09-12T18:12:16Z
Publication date
dc.date.issued
2007
es_CL
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/102886
Abstract
dc.description.abstract
En un sistema de verificación de locutor, la cantidad y calidad de los datos utilizados en el proceso de
enrolamiento son fundamentales para lograr un desempeño mínimo acorde a los requerimientos de la mayoría de
los servicios. Sin embargo, en una aplicación que funciona sobre una plataforma telefónica, es escencial realizar
los diálogos de entrenamiento y verificación de forma rápida y eficiente. Estas restricciones obligan a operar con
una cantidad limitada de datos de enrolamiento. Situación que trae como consecuencia, en muchos casos, modelos
con un bajo nivel de robustez lo que implica una degradación en el rendimiento del sistema.
El problema de datos limitados de enrolamiento en verificación de locutor es un tema poco abordado en la
literatura. Los métodos propuestos se han basado principalmente en adaptación de modelos HMM (Hidden
Markov Models). Estas técnicas adaptan los parámetros de los modelos de cliente usando datos de voz generados
por los usuarios en eventos de verificación.
El objetivo principal de esta tesis es lograr un sistema de verificación de locutor telefónico robusto al efecto
negativo causado por los datos limitados de entrenamiento y el ruido. Para esto, este trabajo de investigación se
centra en el análisis y modelación de la variabilidad intra-locutor. Basándose en el criterio de MAP (Maximum a
posteriori) se propone un modelo de compensación no supervisado para las señales de verificación, ISVC (Intraspeaker
variability compensation). Esta técnica no modifica los modelos de usuario, evitando de esta forma los
errores provocados por la clasificación errónea de datos de adaptación. Es posible estimar los parámetros del
modelo propuesto con un conjunto reducido de usuarios. Además, el método descrito es independiente del usuario
y de la clase fonética en que es aplicado.
ISVC entrega reducciones entre 20% y 40% en la tasa de error del sistema. Cuando existen cambios de canal
entre condiciones de entrenamiento y verificación, el método genera mejoras entre 5% y 10% en la probabilidad
de error. El método propuesto se compara y combina con una técnica de adaptación no supervisada de modelos. Se
analizan ventajas y desventajas de ambos métodos simulando distintos escenarios de operación. Los resultados
obtenidos sugieren que ISVC es compatible con esquemas de adaptación no supervisados. Más aun, la
combinación de ambas técnicas puede llevar a una reducción entre 30% y 40% en la tasa de error de verificación