Mejoramiento en reconocimiento de voz mediante preprocesamiento de audios

Dumas Barrera, Alejandro Mauricio

Professor Advisor	dc.contributor.advisor	Barrios Martínez, Juan
Author	dc.contributor.author	Dumas Barrera, Alejandro Mauricio
Associate professor	dc.contributor.other	Palma Lizana, Mauricio
Associate professor	dc.contributor.other	Sipiran Mendoza, Iván
Admission date	dc.date.accessioned	2024-05-30T21:48:49Z
Available date	dc.date.available	2024-05-30T21:48:49Z
Publication date	dc.date.issued	2023
Identifier	dc.identifier.other	10.58011/yjs5-dh68
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/198843
Abstract	dc.description.abstract	Este informe presenta un trabajo de investigación e implementación de algoritmos que permiten mejorar el reconocimiento de voz en grabaciones de llamadas telefónicas. La empresa Alloxentric tiene un producto que se encarga de analizar dichos audios, que son producidos en call centers de atención a clientes. Estas grabaciones son analizadas a través de sus transcripciones, y la transcripción de audios es una rama en la que se trabaja mucho actualmente y se encuentra en constante mejora. Muchas de las herramientas de transcripción actuales generan resultados con errores que no permiten un buen análisis de las grabaciones, lo cual se puede deber a poco entrenamiento de los modelos en conjuntos de audios específicos o a ruido en las señales de estos archivos. En base a este último escenario, es que surge la oportunidad de construir uno o varios algoritmos que permitan preprocesar los audios para así mejorar el reconocimiento de voz de las herramientas actuales de transcripción. Con este objetivo, se implementaron dos algoritmos para cumplir con las siguientes tareas: diarizar las llamadas telefónicas para poder identificar en cada momento quien es el hablante en la conversación, y construir un modelo de inteligencia artificial que permita limpiar los ruidos más comunes en este tipo de audios. Luego de realizar la diarización manual de un conjunto de 20 audios, se construyó un algoritmo de diarización que identificaba a los hablantes a través de los coeficientes RMS y MFCC de las señales de sonido, obteniendo unos prometedores resultados con un promedio de aciertos del 60 %. Para la identificación de los ruidos, se analizaron 100 audios con malas transcripciones, y se encontró que los ruidos más comunes se debían a distorsiones aleatorias y eco dentro de las grabaciones. Con esto, se procedió a recrear dichos errores, y se entrenó una red neuronal WaveNET con las señales de audio sin procesar. Con esta herramienta, los audios fueron limpiados satisfactoriamente, pero los resultados al momento de comparar las transcripciones de los audios con y sin ruido fueron mixtos. Las diferencias entre los textos de cada una variaban poco en su mayoría, aunque hay algunas excepciones en donde la mejora es significativa, y motiva a seguir trabajando con el modelo implementado, ya sea modificando la estructura de la red neuronal, adaptando los hiperparámetros utilizados, o creando un dataset de entrenamiento con distorsiones más significativas que impacten la capacidad de los STT actuales.	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Título	dc.title	Mejoramiento en reconocimiento de voz mediante preprocesamiento de audios	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil en Computación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Licenciado	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al título de Ingeniero Civil en Computación	es_ES

Files in this item

Name:: Mejoramiento-en-reconocimiento ...
Size:: 949.4Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Pregrado
Tesis Pregrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States