Separación de fuentes de audio con Deep Learning para la interacción humano-robot

En los últimos años se ha notado un aumento de interés en interacciones entre humano y robot, o abreviado al inglés HRI (Human-Robot interaction). Cada vez se hace más necesario desarrollar robots que sean capaces de comunicarse de manera efectiva para el entendimiento/interacción con un humano. Es por esto, que hay una necesidad hoy en día de desarrollar software para que los robots puedan procesar la información que llega desde la contra parte humana. La manera más directa de comunicarse es usando la voz, por la cual, es necesario realizar modelos para el procesamiento de señales. En el presente trabajo se lleva a cabo el desarrollo de un modelo capaz de procesar señales acústicas de escenarios dinámicos en el tiempo en donde el robot y/o usuario pueden estarse moviendo con presencia de ruido y reverberación. Los modelos que se desarrollaron en el presente trabajo de título son usando la herramienta de deep learning. Dicha herramienta es sumamente popular debido a la gran capacidad que tiene de generar modelos que aprenden de grandes cantidades de datos. La resolución del problema se separa en distintas tareas. El objetivo principal es separar la señal objetivo (la voz del usuario) de la interferencia ambiental. Para ello, se deben generar algoritmos de separación de fuentes usando deep learning y desarrollar técnicas de beamforming. Además, hay que medir la calidad de señal acústica procesada por la red usando un ASR o métricas de calidad de voz. La metodología utilizada consiste en primero, realizar una replicación de 3 trabajos previos en donde se utilizan determinadas técnicas o modelos deep learning para realizar separación de fuentes. Dicha replicación tiene el propósito de tener una base para poder comparar resultados cuando se pruebe el sistema propuesto. Segundo, desarrollar el sistema propuesto, que consiste en adaptar las redes deep learning GRNN-BF y ADL-MVDR a una base de datos con escenarios dinámicos reales en el tiempo (reales en el sentido que fueron grabadas en vivo y en directo con el robot y fuentes de speech moviéndose, más ruido y reverberación natural). Los resultados obtenidos demuestran que la red GRNN-BF y la red ADL-MVDR tiene potencial para generar un modelo robusto, capaz de realizar separación de fuentes bajo escenarios dinámicos en el tiempo con movimiento entre el usuario y el robot. Si bien los resultados son prometedores, hay presencia de inconsistencias con las métricas utilizadas para evaluar los modelos. Estas inconsistencias se atribuyen a problemas de generalización de las redes, debido a que hay diferencias en los conjuntos de entrenamiento y test.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Memoria para optar al título de Ingeniero Civil Eléctrico

Patrocinador

Proyecto Fondecyt 1211946

Identifier

URI: https://repositorio.uchile.cl/handle/2250/185603
DOI: 10.58011/y4kf-sz92

Collections