Análisis de la performance y hardware de los modelos LLMS de GPT y Open Source aplicados a Dialog Summarization
Professor Advisor
dc.contributor.advisor
Castro Rojas, Alberto
Author
dc.contributor.author
Yáñez Melo, Pablo Ignacio
Associate professor
dc.contributor.other
Caba Rutte, Andrés
Associate professor
dc.contributor.other
Sandoval Palma, Gonzalo
Admission date
dc.date.accessioned
2025-05-19T20:03:17Z
Available date
dc.date.available
2025-05-19T20:03:17Z
Publication date
dc.date.issued
2025
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/204989
Abstract
dc.description.abstract
Este proyecto de grado se centra en analizar la performance y los requisitos de hardware para implementar Large Language Models (LLMs) como GPT y Open Source en la tarea de Dialog Summarization. El foco específico de la investigación es en el conjunto de datos MediaSum, que contiene extensas entrevistas televisivas y de radio en inglés. El objetivo es determinar cómo estos modelos pueden ser adaptados con recursos limitados de hardware para procesar y condensar efectivamente estos diálogos largos y complejos.
El objetivo general es analizar y evaluar la eficacia y eficiencia de modelos de lenguaje de gran escala (LLMs), incluyendo GPT-4o y alternativas de código abierto, en la tarea de resumen de diálogos, utilizando el conjunto de datos MediaSum. Los objetivos específicos incluyen desarrollar y validar métricas de evaluación para medir la precisión y coherencia de los resúmenes, identificar requisitos de hardware óptimos, realizar ajustes específicos a los modelos, comparar resultados y establecer criterios de selección basados en rendimiento y costos.
El preprocesamiento del conjunto de datos MediaSum incluyó la carga del conjunto de datos, análisis de la estructura, extracción y concatenación del historial de diálogo, conteo de tokens y cálculo de estadísticas descriptivas. El ajuste fino del modelo LLAMA2-7B-32K-Instruct se realizó utilizando técnicas de ajuste eficiente de parámetros (LoRA) y cuantización. La inferencia del modelo se llevó a cabo utilizando los conjuntos de datos de validación y se evaluó la calidad de los resúmenes generados.
La evaluación de la calidad de los resúmenes generados se realizó utilizando BERTScore y ROUGE. LLAMA2-7B-32K-Instruct mostró una mejor precisión y F1 en BERTScore, mientras que GPT-4o tuvo un mejor recall. En términos de tiempo de inferencia, GPT-4o fue más rápido, pero LLAMA2-7B-32K-Instruct ofreció una mejor relación costo-eficiencia. El costo total de inferencia para LLAMA2-7B-32K-Instruct fue significativamente menor en comparación con GPT-4o.
Este estudio ha demostrado que LLAMA2-7B-32K-Instruct ofrece una mejor relación costo-eficiencia y una calidad superior en los resúmenes generados en comparación con GPT-4o. La implementación local de modelos cuantizados en hardware local es una alternativa económica y eficiente que promete ser una solución viable para entornos con recursos computacionales limitados. El ajuste fino ha permitido capturar mejor las características específicas del conjunto de datos MediaSum, resultando en resúmenes más precisos y coherentes.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States