Deconvolución en audio utilizando modelos basados en Machine Deep Learning

El problema de dereverberación es un problema con gran potencial de investigación en ciencias e ingeniería. El problema puede modelarse como uno de deconvolución y existe una vasta cantidad de modelos que buscan abordarlo. Una cantidad importante de métodos de dereverberación hacen uso de Machine Learning para una extracción de características espectrales para obtener una señal de salida dereverberada. Ideas como esta han evolucionado rápidamente y dicha extracción de características actualmente llega a ser automática dentro del aprendizaje, lo cual es un cambio de paradigma de Machine a Deep Learning. En este trabajo se seleccionan 3 enfoques dereverberativos: Context Information/Window, Late Reverberation Supression y Image to Image. Estos 3 enfoques están representados por 7 modelos en este trabajo, las cuales son arquitecturas neuronales de Context Information (una con un MLP y otra con LSTM), Late Reverberation Supression LSTM, Weighted Prediction Error (WPE) en una variante de implementación y resolución denominada FD-NDLP y una arquitectura U-net. La arquitectura U-net se utiliza en 3 variantes, 2 de ellas solo con Error Cuadrático Medio (MSE) como función de pérdida y otra con aprendizaje de Generative Adversarial Networks (GAN). De las 2 arquitecturas U-net entrenadas solo con MSE, una es idea propia y utiliza Late Reverberation Supression. De todos estos modelos, se busca analizar en profundidad la robustez de estos frente al ruido, al nivel de reverberación y capacidad de generalización. Los modelos escogidos son entrenados utilizando audios reverberados simulados mediante convolución. Se hace uso del dataset de audios de voz LibriSpeech y de los datasets OMNI y MARDY para respuestas al impulso. Se evalúan los modelos en diferentes escenarios de ruido, en diferentes niveles de reverberación y en ambientes reales, mediante audios retransmitidos de LibriSpeech. Se utilizan métricas de calidad, inteligibilidad y reverberación de señales de voz, con énfasis en la métrica Speech to Reverberation Modulation Energy Ratio (SRMR), la cual es especializada en reverberación. La arquitectura U-net con y sin aprendizaje GAN en este problema es una idea ya existente, pero se incursiona aún más en ella proponiendo una variante de esta misma, la cual utiliza Late Reverberation Supression. Los resultados obtenidos dan cuenta que una arquitectura U-net con aprendizaje GAN tiene los mejores resultados en la mayoría de escenarios, seguida de la variante de U-net propuesta. El aprendizaje GAN en U-net permitió una mejora cuantitativa significativa en comparación a entrenar la misma arquitectura utilizando solamente el MSE. Las arquitecturas U-net entrenadas en este trabajo tienen una amplia capacidad de generalizar sobre datos simulados y sobre datos reales. El modelo FD-NDLP (que es no supervisado) muestra resultados sobresalientes sobre varios modelos neuronales, pero no supera a las arquitecturas basadas en U-net.

General note

Memoria para optar al título de Ingeniero Civil Eléctrico

Identifier

URI: https://repositorio.uchile.cl/handle/2250/181887
DOI: 10.58011/3w8x-t610

Collections