Aumentando capacidades de LLM de seguimiento de instrucciones en español

Henríquez Muñoz, Clemente Emilio

Professor Advisor	dc.contributor.advisor	Abeliuk Kimelman, Andrés
Professor Advisor	dc.contributor.advisor	Bravo Márquez, Felipe
Author	dc.contributor.author	Henríquez Muñoz, Clemente Emilio
Associate professor	dc.contributor.other	Barriere, Valentín
Associate professor	dc.contributor.other	Piquer Gardner, José Miguel
Associate professor	dc.contributor.other	Scheihing García, Eliana
Admission date	dc.date.accessioned	2024-10-09T18:39:11Z
Available date	dc.date.available	2024-10-09T18:39:11Z
Publication date	dc.date.issued	2024
Identifier	dc.identifier.other	10.58011/wmf1-1d31
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/201439
Abstract	dc.description.abstract	En los últimos años, los grandes modelos de lenguaje (LLM, por sus siglas en inglés) han ganado gran popularidad en el campo del procesamiento de lenguaje natural. Esto se debe en parte a su gran versatilidad y a su capacidad para responder de forma correcta y eficiente a una amplia gama de tareas, incluso en aquellas que no se han visto presentes explícitamente en el entrenamiento de los modelos (zero-shot). Con la publicación del modelo ChatGPT de OpenAI, los LLM tipo chatbot han ganado aún más popularidad, debido a su capacidad para comprender preguntas y comentarios en lenguaje natural y generar respuestas coherentes en función del contexto proporcionado. Si bien los modelos de mayor cantidad de parámetros pueden trabajar y generar texto en diversos idiomas, la mayoría de los modelos pequeños solo pueden trabajar de forma eficiente en inglés. Esto en parte por su predominante entrenamiento en conjuntos de datos en inglés, limitando su capacidad de trabajar con otros idiomas. En esta investigación, proponemos una metodología para mejorar las capacidades para entender y generar texto en español siguiendo instrucciones, al modelo de tipo decodificador causal Falcon-7B, el cual pertenece familia de grandes modelos de lenguaje Falcon, desarrollados por el Technology Innovation Institute de Abu Dhabi. Esta mejora de capacidades se logra mediante un proceso de pre-entrenamiento secundario y un posterior ajuste de parámetros utilizando datos en español en distinto formato. Para la evaluación se propone usar MT-Bench adaptado al español. Esta métrica consiste en un conjunto de preguntas de múltiples turnos creado para evaluar grandes modelos de lenguaje, utilizando otros grandes modelos de lenguaje que tengan mejor desempeño y más parámetros que el modelo a evaluar. Los resultados de esta investigación sugieren que los modelos desarrollados mejoran su capacidad de entender y generar contenido en este idioma, hasta en 2.6 puntos para algunas tareas dentro de la métrica de Mt-bench.	es_ES
Patrocinador	dc.description.sponsorship	Este trabajo ha sido parcialmente financiado por National Center for Artificial Intelligence CENIA FB210017, Basal ANID	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Título	dc.title	Aumentando capacidades de LLM de seguimiento de instrucciones en español	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	chb	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.titulacion	uchile.titulacion	Doble Titulación	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil en Computación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Magister	es_ES
uchile.notadetesis	uchile.notadetesis	Tesis para optar al grado de Magíster en Ciencias, Mención Computación	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al título de Ingeniero Civil en Computación

Files in this item

Name:: Aumentando-capacidades-de-LLM- ...
Size:: 744.3Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States