Show simple item record

Professor Advisordc.contributor.advisorBarrios Martínez, Juan
Authordc.contributor.authorDumas Barrera, Alejandro Mauricio
Associate professordc.contributor.otherPalma Lizana, Mauricio
Associate professordc.contributor.otherSipiran Mendoza, Iván
Admission datedc.date.accessioned2024-05-30T21:48:49Z
Available datedc.date.available2024-05-30T21:48:49Z
Publication datedc.date.issued2023
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/198843
Abstractdc.description.abstractEste informe presenta un trabajo de investigación e implementación de algoritmos que permiten mejorar el reconocimiento de voz en grabaciones de llamadas telefónicas. La empresa Alloxentric tiene un producto que se encarga de analizar dichos audios, que son producidos en call centers de atención a clientes. Estas grabaciones son analizadas a través de sus transcripciones, y la transcripción de audios es una rama en la que se trabaja mucho actualmente y se encuentra en constante mejora. Muchas de las herramientas de transcripción actuales generan resultados con errores que no permiten un buen análisis de las grabaciones, lo cual se puede deber a poco entrenamiento de los modelos en conjuntos de audios específicos o a ruido en las señales de estos archivos. En base a este último escenario, es que surge la oportunidad de construir uno o varios algoritmos que permitan preprocesar los audios para así mejorar el reconocimiento de voz de las herramientas actuales de transcripción. Con este objetivo, se implementaron dos algoritmos para cumplir con las siguientes tareas: diarizar las llamadas telefónicas para poder identificar en cada momento quien es el hablante en la conversación, y construir un modelo de inteligencia artificial que permita limpiar los ruidos más comunes en este tipo de audios. Luego de realizar la diarización manual de un conjunto de 20 audios, se construyó un algoritmo de diarización que identificaba a los hablantes a través de los coeficientes RMS y MFCC de las señales de sonido, obteniendo unos prometedores resultados con un promedio de aciertos del 60 %. Para la identificación de los ruidos, se analizaron 100 audios con malas transcripciones, y se encontró que los ruidos más comunes se debían a distorsiones aleatorias y eco dentro de las grabaciones. Con esto, se procedió a recrear dichos errores, y se entrenó una red neuronal WaveNET con las señales de audio sin procesar. Con esta herramienta, los audios fueron limpiados satisfactoriamente, pero los resultados al momento de comparar las transcripciones de los audios con y sin ruido fueron mixtos. Las diferencias entre los textos de cada una variaban poco en su mayoría, aunque hay algunas excepciones en donde la mejora es significativa, y motiva a seguir trabajando con el modelo implementado, ya sea modificando la estructura de la red neuronal, adaptando los hiperparámetros utilizados, o creando un dataset de entrenamiento con distorsiones más significativas que impacten la capacidad de los STT actuales.es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleMejoramiento en reconocimiento de voz mediante preprocesamiento de audioses_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.carrerauchile.carreraIngeniería Civil en Computaciónes_ES
uchile.gradoacademicouchile.gradoacademicoLicenciadoes_ES
uchile.notadetesisuchile.notadetesisMemoria para optar al título de Ingeniero Civil en Computaciónes_ES


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States