Reconocimiento robusto de voz en sistemas DNN-HMM utilizando parametrización normalizada localmente
Professor Advisor
dc.contributor.advisor
Becerra Yoma, Néstor
Author
dc.contributor.author
Fredes Sandoval, Josué Abraham
Associate professor
dc.contributor.other
Silva Sánchez, Jorge
Associate professor
dc.contributor.other
Zañartu Salas, Matías
Admission date
dc.date.accessioned
2024-04-23T19:28:06Z
Available date
dc.date.available
2024-04-23T19:28:06Z
Publication date
dc.date.issued
2023
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/198194
Abstract
dc.description.abstract
En esta tesis se describe las modificaciones a la parametrización de bancos de filtros
normalizados localmente que mejoran sustancialmente su rendimiento en la tarea de reconocimiento
robusto de voz en la base de datos Aurora-4, utilizando un sistema basado en Deep Neural Network
– Hidden Markov Models (DNN-HMM). Los coeficientes modificados, denominados Locally
Normalized Filter Banks (LNFB), son una versión de banco de filtros de los Locally Normalized
Cepstral Coefficients (LNCC) , propuestos anteriormente.
El uso de LNFB proporciona una reducción relativa media de la tasa de error de 11,4 % y 9,4 %
en comparación con el caso baseline en condiciones de entrenamiento limpio y multi-ruido. Los
resultados presentados aquí sugieren que LNFB es más robusta a diferencias de canal entre datos
de entrenamiento y prueba , y es más eficaz para enfrentar la diversidad de canal.
A continuación se estudia la complementariedad de sistemas DNN-HMM entrenados sobre una
misma base de datos, pero con distintas parametrizaciones. Se entrenaron sistemas usando cuatro
parametrizaciones distintas aplicando en cada caso la técnica de corrección Weighted Predictor
Error, sobre una base de datos reverberante. La combinación de sistemas lleva a un 17,6 % de
reducción relativa de la tasa de error respecto al mejor sistema sin combinar.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States