Aumentando capacidades de LLM de seguimiento de instrucciones en español
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Abeliuk Kimelman, Andrés
Cómo citar
Aumentando capacidades de LLM de seguimiento de instrucciones en español
Author
Professor Advisor
Abstract
En los últimos años, los grandes modelos de lenguaje (LLM, por sus siglas en inglés) han ganado gran popularidad en el campo del procesamiento de lenguaje natural. Esto se debe en parte a su gran versatilidad y a su capacidad para responder de forma correcta y eficiente a una amplia gama de tareas, incluso en aquellas que no se han visto presentes explícitamente en el entrenamiento de los modelos (zero-shot).
Con la publicación del modelo ChatGPT de OpenAI, los LLM tipo chatbot han ganado aún más popularidad, debido a su capacidad para comprender preguntas y comentarios en lenguaje natural y generar respuestas coherentes en función del contexto proporcionado.
Si bien los modelos de mayor cantidad de parámetros pueden trabajar y generar texto en diversos idiomas, la mayoría de los modelos pequeños solo pueden trabajar de forma eficiente en inglés. Esto en parte por su predominante entrenamiento en conjuntos de datos en inglés, limitando su capacidad de trabajar con otros idiomas.
En esta investigación, proponemos una metodología para mejorar las capacidades para entender y generar texto en español siguiendo instrucciones, al modelo de tipo decodificador causal Falcon-7B, el cual pertenece familia de grandes modelos de lenguaje Falcon, desarrollados por el Technology Innovation Institute de Abu Dhabi.
Esta mejora de capacidades se logra mediante un proceso de pre-entrenamiento secundario y un posterior ajuste de parámetros utilizando datos en español en distinto formato.
Para la evaluación se propone usar MT-Bench adaptado al español. Esta métrica consiste en un conjunto de preguntas de múltiples turnos creado para evaluar grandes modelos de lenguaje, utilizando otros grandes modelos de lenguaje que tengan mejor desempeño y más parámetros que el modelo a evaluar.
Los resultados de esta investigación sugieren que los modelos desarrollados mejoran su capacidad de entender y generar contenido en este idioma, hasta en 2.6 puntos para algunas tareas dentro de la métrica de Mt-bench.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias, Mención Computación Memoria para optar al título de Ingeniero Civil en Computación
Patrocinador
Este trabajo ha sido parcialmente financiado por National Center for Artificial Intelligence
CENIA FB210017, Basal ANID
Collections
The following license files are associated with this item: