Reconocimiento robusto de patrones acústicos basados en el sistema auditivo periférico

Poblete Ramírez, Víctor

Professor Advisor	dc.contributor.advisor	Becerra Y., Néstor
Author	dc.contributor.author	Poblete Ramírez, Víctor
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas
Staff editor	dc.contributor.editor	Departamento de Ingeniería Eléctrica
Associate professor	dc.contributor.other	Atkinson, John
Associate professor	dc.contributor.other	Busso Recabarren, Carlos
Associate professor	dc.contributor.other	Silva Sánchez, Jorge
Admission date	dc.date.accessioned	2014-10-09T19:29:22Z
Available date	dc.date.available	2014-10-09T19:29:22Z
Publication date	dc.date.issued	2014
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/117101
General note	dc.description	Doctor en Ingeniería Eléctrica
Abstract	dc.description.abstract	La verificación de locutor (SV) por biometría de voz, se ha integrado en diversas aplicaciones como interfaz de comunicación entre personas y máquinas. Sin embargo, su principal inconveniente es enfrentar variabilidades o mismatch entre condiciones de entrenamiento y prueba. La robustez es la propiedad que le permite mantener su funcionamiento superando perturbaciones. En SV existe necesidad de extraer parámetros espectrales propios del locutor y robustos a ruido y a efectos de distorsión de canal. Varios métodos de extracción se inspiran en la fisiología periférica auditivo y en teorías de codificación neuronal de fibras del nervio auditivo (AN). El término periférico se utiliza para dar a entender aquella parte del sistema auditivo que es externo al sistema nervioso central (CNS). La salida del sistema auditivo periférico es la actividad del AN. A su vez, esta actividad es la entrada al CNS. Esta tesis aborda dos novedosos métodos inspirados en la periferia auditiva que contribuyen a la robustez de sistemas de SV, ante condiciones de mismatch por ruido aditivo y por variabilidad en el canal acústico de transmisión, en una tarea de reconocimiento de patrones acústicos: verificación de locutor de texto-independiente (TI-SV). El primero, es una función sigmoidal óptima, tasa-nivel, que es una componente de muchos modelos del sistema auditivo periférico. La optimización usa criterios definidos exclusivamente sobre la base de atributos físicos del sonido de entrada inspirados en evidencia fisiológica. Estos criterios, discriminan entre una señal de voz degradada, y ruido, para preservar la máxima cantidad de información en la región lineal de la curva sigmoidal y para minimizar la distorsión en regiones de saturación. El desempeño de la función sigmoidal se valida con experimentos de TI-SV, con señales degradadas por ruido aditivo a diferentes SNRs. Los resultados, comparados con el sistema baseline MFCC, muestran que el método propuesto, en combinación con normalización de varianza cepstral (CVN), conduce a reducciones relativas en EER, tan grandes como 40% en ciertos SNRs. A continuación, se presenta un nuevo conjunto de features, llamados Coeficientes Cepstrales Localmente-Normalizados (LNCCs), que se basan en el Detector de Sincronía Generalizada (GSD) de Stephanie Seneff. El método propuesto, motivado perceptualmente, permite normalizar en forma instantánea features de voz. La efectividad de los LNCCs se demuestra en una tarea de TI-SV a lo largo de una variedad de condiciones de tilt espectral en el canal acústico de transmisión. Los resultados, comparados con el sistema baseline MFCC y con MFCC+CMN, muestran que los LNCCs se caracterizan por requerir de baja complejidad computacional y por compensar más ampliamente el tilt espectral que los coeficientes MFCCs. Además, LNCCs no requieren el cálculo y almacenamiento de un promedio móvil de valores de features, proporcionando reducciones relativas en EER tan altas como 32% y 35% cuando se comparan con MFCC y MFCC+CMN, con tilt espectral variable, respectivamente. Es interesante destacar que los features LNCC pueden llegar a ser una alternativa a MFCC y MFCC+CMN, en cualquier situación donde es difícil estimar confiablemente la media cepstral. Ambas estrategias propuestas en esta tesis, comparadas con el sistema baseline MFCC, consiguen robustez del sistema TI-SV mejorando su desempeño frente a diversas condiciones de mismatch.	en_US
Lenguage	dc.language.iso	es	en_US
Publisher	dc.publisher	Universidad de Chile	en_US
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/	*
Keywords	dc.subject	Biometría	en_US
Keywords	dc.subject	Reconocimiento automático de la voz	en_US
Keywords	dc.subject	Sincronización	en_US
Keywords	dc.subject	Función sigmoidal	en_US
Keywords	dc.subject	LNCCs	en_US
Título	dc.title	Reconocimiento robusto de patrones acústicos basados en el sistema auditivo periférico	en_US
Document type	dc.type	Tesis

Files in this item

Name:: cf-poblete_vr.pdf
Size:: 18.74Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile