Mejoramiento en reconocimiento de voz mediante preprocesamiento de audios
Tesis
Access note
Acceso abierto
Publication date
2023Metadata
Show full item record
Cómo citar
Barrios Martínez, Juan
Cómo citar
Mejoramiento en reconocimiento de voz mediante preprocesamiento de audios
Professor Advisor
Abstract
Este informe presenta un trabajo de investigación e implementación de algoritmos que
permiten mejorar el reconocimiento de voz en grabaciones de llamadas telefónicas.
La empresa Alloxentric tiene un producto que se encarga de analizar dichos audios, que son
producidos en call centers de atención a clientes. Estas grabaciones son analizadas a través
de sus transcripciones, y la transcripción de audios es una rama en la que se trabaja mucho
actualmente y se encuentra en constante mejora. Muchas de las herramientas de transcripción
actuales generan resultados con errores que no permiten un buen análisis de las grabaciones,
lo cual se puede deber a poco entrenamiento de los modelos en conjuntos de audios específicos
o a ruido en las señales de estos archivos. En base a este último escenario, es que surge la
oportunidad de construir uno o varios algoritmos que permitan preprocesar los audios para
así mejorar el reconocimiento de voz de las herramientas actuales de transcripción.
Con este objetivo, se implementaron dos algoritmos para cumplir con las siguientes tareas:
diarizar las llamadas telefónicas para poder identificar en cada momento quien es el hablante
en la conversación, y construir un modelo de inteligencia artificial que permita limpiar los
ruidos más comunes en este tipo de audios.
Luego de realizar la diarización manual de un conjunto de 20 audios, se construyó un
algoritmo de diarización que identificaba a los hablantes a través de los coeficientes RMS y
MFCC de las señales de sonido, obteniendo unos prometedores resultados con un promedio
de aciertos del 60 %.
Para la identificación de los ruidos, se analizaron 100 audios con malas transcripciones, y
se encontró que los ruidos más comunes se debían a distorsiones aleatorias y eco dentro de
las grabaciones. Con esto, se procedió a recrear dichos errores, y se entrenó una red neuronal
WaveNET con las señales de audio sin procesar. Con esta herramienta, los audios fueron
limpiados satisfactoriamente, pero los resultados al momento de comparar las transcripciones de los audios con y sin ruido fueron mixtos. Las diferencias entre los textos de cada
una variaban poco en su mayoría, aunque hay algunas excepciones en donde la mejora es
significativa, y motiva a seguir trabajando con el modelo implementado, ya sea modificando
la estructura de la red neuronal, adaptando los hiperparámetros utilizados, o creando un
dataset de entrenamiento con distorsiones más significativas que impacten la capacidad de
los STT actuales.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil en Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/198843
Collections
The following license files are associated with this item: