Show simple item record

Professor Advisordc.contributor.advisorBecerra Y., Néstor
Authordc.contributor.authorPoblete Ramírez, Víctor 
Staff editordc.contributor.editorFacultad de Ciencias Físicas y Matemáticas
Staff editordc.contributor.editorDepartamento de Ingeniería Eléctrica
Associate professordc.contributor.otherAtkinson, John
Associate professordc.contributor.otherBusso Recabarren, Carlos
Associate professordc.contributor.otherSilva Sánchez, Jorge 
Admission datedc.date.accessioned2014-10-09T19:29:22Z
Available datedc.date.available2014-10-09T19:29:22Z
Publication datedc.date.issued2014
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/117101
General notedc.descriptionDoctor en Ingeniería Eléctrica
Abstractdc.description.abstractLa verificación de locutor (SV) por biometría de voz, se ha integrado en diversas aplicaciones como interfaz de comunicación entre personas y máquinas. Sin embargo, su principal inconveniente es enfrentar variabilidades o mismatch entre condiciones de entrenamiento y prueba. La robustez es la propiedad que le permite mantener su funcionamiento superando perturbaciones. En SV existe necesidad de extraer parámetros espectrales propios del locutor y robustos a ruido y a efectos de distorsión de canal. Varios métodos de extracción se inspiran en la fisiología periférica auditivo y en teorías de codificación neuronal de fibras del nervio auditivo (AN). El término periférico se utiliza para dar a entender aquella parte del sistema auditivo que es externo al sistema nervioso central (CNS). La salida del sistema auditivo periférico es la actividad del AN. A su vez, esta actividad es la entrada al CNS. Esta tesis aborda dos novedosos métodos inspirados en la periferia auditiva que contribuyen a la robustez de sistemas de SV, ante condiciones de mismatch por ruido aditivo y por variabilidad en el canal acústico de transmisión, en una tarea de reconocimiento de patrones acústicos: verificación de locutor de texto-independiente (TI-SV). El primero, es una función sigmoidal óptima, tasa-nivel, que es una componente de muchos modelos del sistema auditivo periférico. La optimización usa criterios definidos exclusivamente sobre la base de atributos físicos del sonido de entrada inspirados en evidencia fisiológica. Estos criterios, discriminan entre una señal de voz degradada, y ruido, para preservar la máxima cantidad de información en la región lineal de la curva sigmoidal y para minimizar la distorsión en regiones de saturación. El desempeño de la función sigmoidal se valida con experimentos de TI-SV, con señales degradadas por ruido aditivo a diferentes SNRs. Los resultados, comparados con el sistema baseline MFCC, muestran que el método propuesto, en combinación con normalización de varianza cepstral (CVN), conduce a reducciones relativas en EER, tan grandes como 40% en ciertos SNRs. A continuación, se presenta un nuevo conjunto de features, llamados Coeficientes Cepstrales Localmente-Normalizados (LNCCs), que se basan en el Detector de Sincronía Generalizada (GSD) de Stephanie Seneff. El método propuesto, motivado perceptualmente, permite normalizar en forma instantánea features de voz. La efectividad de los LNCCs se demuestra en una tarea de TI-SV a lo largo de una variedad de condiciones de tilt espectral en el canal acústico de transmisión. Los resultados, comparados con el sistema baseline MFCC y con MFCC+CMN, muestran que los LNCCs se caracterizan por requerir de baja complejidad computacional y por compensar más ampliamente el tilt espectral que los coeficientes MFCCs. Además, LNCCs no requieren el cálculo y almacenamiento de un promedio móvil de valores de features, proporcionando reducciones relativas en EER tan altas como 32% y 35% cuando se comparan con MFCC y MFCC+CMN, con tilt espectral variable, respectivamente. Es interesante destacar que los features LNCC pueden llegar a ser una alternativa a MFCC y MFCC+CMN, en cualquier situación donde es difícil estimar confiablemente la media cepstral. Ambas estrategias propuestas en esta tesis, comparadas con el sistema baseline MFCC, consiguen robustez del sistema TI-SV mejorando su desempeño frente a diversas condiciones de mismatch.en_US
Lenguagedc.language.isoesen_US
Publisherdc.publisherUniversidad de Chileen_US
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectBiometríaen_US
Keywordsdc.subjectReconocimiento automático de la vozen_US
Keywordsdc.subjectSincronizaciónen_US
Keywordsdc.subjectFunción sigmoidalen_US
Keywordsdc.subjectLNCCsen_US
Títulodc.titleReconocimiento robusto de patrones acústicos basados en el sistema auditivo periféricoen_US
Document typedc.typeTesis


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile