Show simple item record

Professor Advisordc.contributor.advisorTobar Henríquez, Felipe
Authordc.contributor.authorLeón González, Diego Javier 
Associate professordc.contributor.otherSilva Sánchez, Jorge
Associate professordc.contributor.otherFontbona Torres, Joaquín
Admission datedc.date.accessioned2021-09-08T19:31:26Z
Available datedc.date.available2021-09-08T19:31:26Z
Publication datedc.date.issued2021
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/181887
General notedc.descriptionMemoria para optar al título de Ingeniero Civil Eléctricoes_ES
Abstractdc.description.abstractEl problema de dereverberación es un problema con gran potencial de investigación en ciencias e ingeniería. El problema puede modelarse como uno de deconvolución y existe una vasta cantidad de modelos que buscan abordarlo. Una cantidad importante de métodos de dereverberación hacen uso de Machine Learning para una extracción de características espectrales para obtener una señal de salida dereverberada. Ideas como esta han evolucionado rápidamente y dicha extracción de características actualmente llega a ser automática dentro del aprendizaje, lo cual es un cambio de paradigma de Machine a Deep Learning. En este trabajo se seleccionan 3 enfoques dereverberativos: Context Information/Window, Late Reverberation Supression y Image to Image. Estos 3 enfoques están representados por 7 modelos en este trabajo, las cuales son arquitecturas neuronales de Context Information (una con un MLP y otra con LSTM), Late Reverberation Supression LSTM, Weighted Prediction Error (WPE) en una variante de implementación y resolución denominada FD-NDLP y una arquitectura U-net. La arquitectura U-net se utiliza en 3 variantes, 2 de ellas solo con Error Cuadrático Medio (MSE) como función de pérdida y otra con aprendizaje de Generative Adversarial Networks (GAN). De las 2 arquitecturas U-net entrenadas solo con MSE, una es idea propia y utiliza Late Reverberation Supression. De todos estos modelos, se busca analizar en profundidad la robustez de estos frente al ruido, al nivel de reverberación y capacidad de generalización. Los modelos escogidos son entrenados utilizando audios reverberados simulados mediante convolución. Se hace uso del dataset de audios de voz LibriSpeech y de los datasets OMNI y MARDY para respuestas al impulso. Se evalúan los modelos en diferentes escenarios de ruido, en diferentes niveles de reverberación y en ambientes reales, mediante audios retransmitidos de LibriSpeech. Se utilizan métricas de calidad, inteligibilidad y reverberación de señales de voz, con énfasis en la métrica Speech to Reverberation Modulation Energy Ratio (SRMR), la cual es especializada en reverberación. La arquitectura U-net con y sin aprendizaje GAN en este problema es una idea ya existente, pero se incursiona aún más en ella proponiendo una variante de esta misma, la cual utiliza Late Reverberation Supression. Los resultados obtenidos dan cuenta que una arquitectura U-net con aprendizaje GAN tiene los mejores resultados en la mayoría de escenarios, seguida de la variante de U-net propuesta. El aprendizaje GAN en U-net permitió una mejora cuantitativa significativa en comparación a entrenar la misma arquitectura utilizando solamente el MSE. Las arquitecturas U-net entrenadas en este trabajo tienen una amplia capacidad de generalizar sobre datos simulados y sobre datos reales. El modelo FD-NDLP (que es no supervisado) muestra resultados sobresalientes sobre varios modelos neuronales, pero no supera a las arquitecturas basadas en U-net.es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectTeoría de las señales (Telecomunicaciones)
Keywordsdc.subjectComputadores - Programación
Keywordsdc.subjectRedes neuronales (Ciencia de la computación)
Keywordsdc.subjectProcesamiento de señales - Tecnicas digitales - Experimentos - Procesamiento de datos
Títulodc.titleDeconvolución en audio utilizando modelos basados en Machine Deep Learninges_ES
Document typedc.typeTesis
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ingeniería Eléctricaes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile