Análisis de la performance y hardware de los modelos LLMS de GPT y Open Source aplicados a Dialog Summarization

Este proyecto de grado se centra en analizar la performance y los requisitos de hardware para implementar Large Language Models (LLMs) como GPT y Open Source en la tarea de Dialog Summarization. El foco específico de la investigación es en el conjunto de datos MediaSum, que contiene extensas entrevistas televisivas y de radio en inglés. El objetivo es determinar cómo estos modelos pueden ser adaptados con recursos limitados de hardware para procesar y condensar efectivamente estos diálogos largos y complejos. El objetivo general es analizar y evaluar la eficacia y eficiencia de modelos de lenguaje de gran escala (LLMs), incluyendo GPT-4o y alternativas de código abierto, en la tarea de resumen de diálogos, utilizando el conjunto de datos MediaSum. Los objetivos específicos incluyen desarrollar y validar métricas de evaluación para medir la precisión y coherencia de los resúmenes, identificar requisitos de hardware óptimos, realizar ajustes específicos a los modelos, comparar resultados y establecer criterios de selección basados en rendimiento y costos. El preprocesamiento del conjunto de datos MediaSum incluyó la carga del conjunto de datos, análisis de la estructura, extracción y concatenación del historial de diálogo, conteo de tokens y cálculo de estadísticas descriptivas. El ajuste fino del modelo LLAMA2-7B-32K-Instruct se realizó utilizando técnicas de ajuste eficiente de parámetros (LoRA) y cuantización. La inferencia del modelo se llevó a cabo utilizando los conjuntos de datos de validación y se evaluó la calidad de los resúmenes generados. La evaluación de la calidad de los resúmenes generados se realizó utilizando BERTScore y ROUGE. LLAMA2-7B-32K-Instruct mostró una mejor precisión y F1 en BERTScore, mientras que GPT-4o tuvo un mejor recall. En términos de tiempo de inferencia, GPT-4o fue más rápido, pero LLAMA2-7B-32K-Instruct ofreció una mejor relación costo-eficiencia. El costo total de inferencia para LLAMA2-7B-32K-Instruct fue significativamente menor en comparación con GPT-4o. Este estudio ha demostrado que LLAMA2-7B-32K-Instruct ofrece una mejor relación costo-eficiencia y una calidad superior en los resúmenes generados en comparación con GPT-4o. La implementación local de modelos cuantizados en hardware local es una alternativa económica y eficiente que promete ser una solución viable para entornos con recursos computacionales limitados. El ajuste fino ha permitido capturar mejor las características específicas del conjunto de datos MediaSum, resultando en resúmenes más precisos y coherentes.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Memoria para optar al título de Ingeniero Civil Eléctrico

Identifier

URI: https://repositorio.uchile.cl/handle/2250/204989

Collections