Separación de fuentes de audio con Deep Learning para la interacción humano-robot

Jiménez Bohmer, Nicolás Alberto

Professor Advisor	dc.contributor.advisor	Becerra Yoma, Néstor
Author	dc.contributor.author	Jiménez Bohmer, Nicolás Alberto
Associate professor	dc.contributor.other	Rivera Serrano, Francisco
Associate professor	dc.contributor.other	Mahu Sinclair, Rodrigo Manuel
Admission date	dc.date.accessioned	2022-05-18T15:38:12Z
Available date	dc.date.available	2022-05-18T15:38:12Z
Publication date	dc.date.issued	2022
Identifier	dc.identifier.other	10.58011/y4kf-sz92
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/185603
Abstract	dc.description.abstract	En los últimos años se ha notado un aumento de interés en interacciones entre humano y robot, o abreviado al inglés HRI (Human-Robot interaction). Cada vez se hace más necesario desarrollar robots que sean capaces de comunicarse de manera efectiva para el entendimiento/interacción con un humano. Es por esto, que hay una necesidad hoy en día de desarrollar software para que los robots puedan procesar la información que llega desde la contra parte humana. La manera más directa de comunicarse es usando la voz, por la cual, es necesario realizar modelos para el procesamiento de señales. En el presente trabajo se lleva a cabo el desarrollo de un modelo capaz de procesar señales acústicas de escenarios dinámicos en el tiempo en donde el robot y/o usuario pueden estarse moviendo con presencia de ruido y reverberación. Los modelos que se desarrollaron en el presente trabajo de título son usando la herramienta de deep learning. Dicha herramienta es sumamente popular debido a la gran capacidad que tiene de generar modelos que aprenden de grandes cantidades de datos. La resolución del problema se separa en distintas tareas. El objetivo principal es separar la señal objetivo (la voz del usuario) de la interferencia ambiental. Para ello, se deben generar algoritmos de separación de fuentes usando deep learning y desarrollar técnicas de beamforming. Además, hay que medir la calidad de señal acústica procesada por la red usando un ASR o métricas de calidad de voz. La metodología utilizada consiste en primero, realizar una replicación de 3 trabajos previos en donde se utilizan determinadas técnicas o modelos deep learning para realizar separación de fuentes. Dicha replicación tiene el propósito de tener una base para poder comparar resultados cuando se pruebe el sistema propuesto. Segundo, desarrollar el sistema propuesto, que consiste en adaptar las redes deep learning GRNN-BF y ADL-MVDR a una base de datos con escenarios dinámicos reales en el tiempo (reales en el sentido que fueron grabadas en vivo y en directo con el robot y fuentes de speech moviéndose, más ruido y reverberación natural). Los resultados obtenidos demuestran que la red GRNN-BF y la red ADL-MVDR tiene potencial para generar un modelo robusto, capaz de realizar separación de fuentes bajo escenarios dinámicos en el tiempo con movimiento entre el usuario y el robot. Si bien los resultados son prometedores, hay presencia de inconsistencias con las métricas utilizadas para evaluar los modelos. Estas inconsistencias se atribuyen a problemas de generalización de las redes, debido a que hay diferencias en los conjuntos de entrenamiento y test.	es_ES
Patrocinador	dc.description.sponsorship	Proyecto Fondecyt 1211946	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Keywords	dc.subject	Aprendizaje de máquina
Keywords	dc.subject	Inteligencia artificial
Keywords	dc.subject	Procesamiento de señales
Keywords	dc.subject	Deep learning
Keywords	dc.subject	Separación de fuentes
Título	dc.title	Separación de fuentes de audio con Deep Learning para la interacción humano-robot	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ingeniería Eléctrica	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil Eléctrica	es_ES
uchile.gradoacademico	uchile.gradoacademico	Licenciado	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al título de Ingeniero Civil Eléctrico	es_ES

Files in this item

Name:: Separacion-de-fuentes-de-audio ...
Size:: 2.393Mb
Format:: PDF

Name:: TablaConten.pdf
Size:: 174.3Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Pregrado
Tesis Pregrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States