Cancelación de ruido y reverberación para reconocimiento de voz en interacción humano robot
Professor Advisor
dc.contributor.advisor
Becerra Yoma, Néstor
Author
dc.contributor.author
Correa Álvarez, Pedro José
Associate professor
dc.contributor.other
Silva Sánchez, Jorge
Associate professor
dc.contributor.other
Mahu Sinclair, Rodrigo
Admission date
dc.date.accessioned
2020-04-17T04:12:32Z
Available date
dc.date.available
2020-04-17T04:12:32Z
Publication date
dc.date.issued
2020
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/173932
General note
dc.description
Memoria para optar al título de Ingeniero Civil Eléctrico
es_ES
Abstract
dc.description.abstract
Actualmente las tecnologías de reconocimiento automático de voz tienen un rol protagónico en el desarrollo de plataformas para la interacción entre personas y sistemas robóticos.
Considerando que el lenguaje hablado es la principal forma de comunicación entre los seres
humanos, el desarrollo de estas plataformas ha apuntado a imitar dicha forma de comunicación, y se ha traducido en populares aplicaciones como Siri o Google Now. De la misma
manera, en el área de interacción humano robot el reconocimiento automático de voz es crucial, y en este contexto se suele contar con una serie de sensores. Los robots normalmente
están equipados con arreglos de micrófonos, además de cámaras de video y térmicas, radares,
sonares, entre otros. Esto entrega una amplia gama de posibilidades para mejorar el desempeño de las distintas tecnologías que han sido implementadas en ellos, particularmente las de
reconocimiento de voz.
En esta Memoria de Título se ha trabajado sobre señales distorsionadas con ruido y reverberación, simulando escenarios típicos de interacción humano robot. Con el fin de mejorar
el desempeño del reconocimiento automático de voz, se han implementado redes neuronales
artificiales y otras técnicas de procesamiento de audio que permiten reducir el efecto del ruido
y la reverberación. Para esto, se utilizó Tensorflow, una librería de libre acceso para Python
que permite la programación de redes neuronales artificiales. Hecho esto, se comparan los sistemas implementados en base a su desempeño en un sistema de reconocimiento automático
de voz.
Por último, se ha concluido en base a los resultados obtenidos en las distintas etapas
de la investigación. Para el caso de la reverberación, se compara el desempeño de una red
neuronal LSTM y el método WPE, siendo este último el que da mejores resultados. Por otra
parte, para la reducción de ruido se implementó una red neuronal feedforward, y se probaron
distintas formas de normalización sobre los datos. Se observó que ciertas normalizaciones
permiten mejoras considerables en el desempeño del reconocedor de voz.