Separación de fuentes de audio con Deep Learning para la interacción humano-robot
Professor Advisor
dc.contributor.advisor
Becerra Yoma, Néstor
Author
dc.contributor.author
Jiménez Bohmer, Nicolás Alberto
Associate professor
dc.contributor.other
Rivera Serrano, Francisco
Associate professor
dc.contributor.other
Mahu Sinclair, Rodrigo Manuel
Admission date
dc.date.accessioned
2022-05-18T15:38:12Z
Available date
dc.date.available
2022-05-18T15:38:12Z
Publication date
dc.date.issued
2022
Identifier
dc.identifier.other
10.58011/y4kf-sz92
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/185603
Abstract
dc.description.abstract
En los últimos años se ha notado un aumento de interés en interacciones entre humano y robot, o abreviado al inglés HRI (Human-Robot interaction). Cada vez se hace más necesario desarrollar robots que sean capaces de comunicarse de manera efectiva para el entendimiento/interacción con un humano. Es por esto, que hay una necesidad hoy en día de desarrollar software para que los robots puedan procesar la información que llega desde la contra parte humana. La manera más directa de comunicarse es usando la voz, por la cual, es necesario realizar modelos para el procesamiento de señales.
En el presente trabajo se lleva a cabo el desarrollo de un modelo capaz de procesar señales acústicas de escenarios dinámicos en el tiempo en donde el robot y/o usuario pueden estarse moviendo con presencia de ruido y reverberación. Los modelos que se desarrollaron en el presente trabajo de título son usando la herramienta de deep learning. Dicha herramienta es sumamente popular debido a la gran capacidad que tiene de generar modelos que aprenden de grandes cantidades de datos.
La resolución del problema se separa en distintas tareas. El objetivo principal es separar la señal objetivo (la voz del usuario) de la interferencia ambiental. Para ello, se deben generar algoritmos de separación de fuentes usando deep learning y desarrollar técnicas de beamforming. Además, hay que medir la calidad de señal acústica procesada por la red usando un ASR o métricas de calidad de voz.
La metodología utilizada consiste en primero, realizar una replicación de 3 trabajos previos en donde se utilizan determinadas técnicas o modelos deep learning para realizar separación de fuentes. Dicha replicación tiene el propósito de tener una base para poder comparar resultados cuando se pruebe el sistema propuesto. Segundo, desarrollar el sistema propuesto, que consiste en adaptar las redes deep learning GRNN-BF y ADL-MVDR a una base de datos con escenarios dinámicos reales en el tiempo (reales en el sentido que fueron grabadas en vivo y en directo con el robot y fuentes de speech moviéndose, más ruido y reverberación natural).
Los resultados obtenidos demuestran que la red GRNN-BF y la red ADL-MVDR tiene potencial para generar un modelo robusto, capaz de realizar separación de fuentes bajo escenarios dinámicos en el tiempo con movimiento entre el usuario y el robot. Si bien los resultados son prometedores, hay presencia de inconsistencias con las métricas utilizadas para evaluar los modelos. Estas inconsistencias se atribuyen a problemas de generalización de las redes, debido a que hay diferencias en los conjuntos de entrenamiento y test.
es_ES
Patrocinador
dc.description.sponsorship
Proyecto Fondecyt 1211946
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States