Caracterización del modelo TitaNet-L de NVIDIA para reconocimiento de hablantes en español
Professor Advisor
dc.contributor.advisor
Silva Sánchez, Jorge
Author
dc.contributor.author
Oñate Oyaneder, Eduardo Alexis
Associate professor
dc.contributor.other
Huneeus Lagos, Cristóbal
Associate professor
dc.contributor.other
Silva Madrid, Álvaro
Associate professor
dc.contributor.other
Zañartu Salas, Matías
Admission date
dc.date.accessioned
2025-01-03T15:00:58Z
Available date
dc.date.available
2025-01-03T15:00:58Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/202594
Abstract
dc.description.abstract
Este trabajo de título se centra en la caracterización y evaluación de un sistema escalable de identificación de hablantes en español, basado en el modelo de representación TitaNet-L, preentrenado en inglés por NVIDIA. Se construyó un dataset utilizando sesiones del Proceso Constituyente chileno de 2023 (PCCh23). Adicionalmente, se ha propuesto una metodología replicable para la caracterización de otros sistemas de representación biométrica basados en encoders neuronales optimizados para la codificación de individuos considerando márgenes angulares interclase.
Los resultados demostraron que el modelo es capaz de generar embeddings consistentes y representativos para cada hablante, y que el clasificador basado en la definición de centroides por clase y similitud coseno permitió una identificación eficiente sin la necesidad de altos volúmenes de datos de enrolamiento ni de grandes recursos de cómputo. Se alcanzó un accuracy de al menos 85\% en problemas con hasta 75 hablantes, utilizando 20 segundos de elocuciones de enrolamiento por locutor. Sin embargo, cuando el tiempo total de datos de enrolamiento supera los 60 segundos, la incorporación de nuevas elocuciones tiende a perjudicar el rendimiento del modelo.
Para el futuro, se sugiere la creación de datasets estandarizados para el reconocimiento de hablantes en español y el desarrollo de clasificadores geométricos más complejos para mejorar la precisión y robustez del sistema.
es_ES
Patrocinador
dc.description.sponsorship
Este trabajo ha sido parcialmente financiado por Unholster S.A
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States