Cancelación de ruido y reverberación para reconocimiento de voz en interacción humano robot
Tesis

Open/ Download
Publication date
2020Metadata
Show full item record
Cómo citar
Becerra Yoma, Néstor
Cómo citar
Cancelación de ruido y reverberación para reconocimiento de voz en interacción humano robot
Author
Professor Advisor
Abstract
Actualmente las tecnologías de reconocimiento automático de voz tienen un rol protagónico en el desarrollo de plataformas para la interacción entre personas y sistemas robóticos.
Considerando que el lenguaje hablado es la principal forma de comunicación entre los seres
humanos, el desarrollo de estas plataformas ha apuntado a imitar dicha forma de comunicación, y se ha traducido en populares aplicaciones como Siri o Google Now. De la misma
manera, en el área de interacción humano robot el reconocimiento automático de voz es crucial, y en este contexto se suele contar con una serie de sensores. Los robots normalmente
están equipados con arreglos de micrófonos, además de cámaras de video y térmicas, radares,
sonares, entre otros. Esto entrega una amplia gama de posibilidades para mejorar el desempeño de las distintas tecnologías que han sido implementadas en ellos, particularmente las de
reconocimiento de voz.
En esta Memoria de Título se ha trabajado sobre señales distorsionadas con ruido y reverberación, simulando escenarios típicos de interacción humano robot. Con el fin de mejorar
el desempeño del reconocimiento automático de voz, se han implementado redes neuronales
artificiales y otras técnicas de procesamiento de audio que permiten reducir el efecto del ruido
y la reverberación. Para esto, se utilizó Tensorflow, una librería de libre acceso para Python
que permite la programación de redes neuronales artificiales. Hecho esto, se comparan los sistemas implementados en base a su desempeño en un sistema de reconocimiento automático
de voz.
Por último, se ha concluido en base a los resultados obtenidos en las distintas etapas
de la investigación. Para el caso de la reverberación, se compara el desempeño de una red
neuronal LSTM y el método WPE, siendo este último el que da mejores resultados. Por otra
parte, para la reducción de ruido se implementó una red neuronal feedforward, y se probaron
distintas formas de normalización sobre los datos. Se observó que ciertas normalizaciones
permiten mejoras considerables en el desempeño del reconocedor de voz.
General note
Memoria para optar al título de Ingeniero Civil Eléctrico
Identifier
URI: https://repositorio.uchile.cl/handle/2250/173932
Collections
The following license files are associated with this item: