Show simple item record

Professor Advisordc.contributor.advisorAbeliuk Kimelman, Andrés
Professor Advisordc.contributor.advisorBravo Márquez, Felipe
Authordc.contributor.authorHenríquez Muñoz, Clemente Emilio
Associate professordc.contributor.otherBarriere, Valentín
Associate professordc.contributor.otherPiquer Gardner, José Miguel
Associate professordc.contributor.otherScheihing García, Eliana
Admission datedc.date.accessioned2024-10-09T18:39:11Z
Available datedc.date.available2024-10-09T18:39:11Z
Publication datedc.date.issued2024
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/201439
Abstractdc.description.abstractEn los últimos años, los grandes modelos de lenguaje (LLM, por sus siglas en inglés) han ganado gran popularidad en el campo del procesamiento de lenguaje natural. Esto se debe en parte a su gran versatilidad y a su capacidad para responder de forma correcta y eficiente a una amplia gama de tareas, incluso en aquellas que no se han visto presentes explícitamente en el entrenamiento de los modelos (zero-shot). Con la publicación del modelo ChatGPT de OpenAI, los LLM tipo chatbot han ganado aún más popularidad, debido a su capacidad para comprender preguntas y comentarios en lenguaje natural y generar respuestas coherentes en función del contexto proporcionado. Si bien los modelos de mayor cantidad de parámetros pueden trabajar y generar texto en diversos idiomas, la mayoría de los modelos pequeños solo pueden trabajar de forma eficiente en inglés. Esto en parte por su predominante entrenamiento en conjuntos de datos en inglés, limitando su capacidad de trabajar con otros idiomas. En esta investigación, proponemos una metodología para mejorar las capacidades para entender y generar texto en español siguiendo instrucciones, al modelo de tipo decodificador causal Falcon-7B, el cual pertenece familia de grandes modelos de lenguaje Falcon, desarrollados por el Technology Innovation Institute de Abu Dhabi. Esta mejora de capacidades se logra mediante un proceso de pre-entrenamiento secundario y un posterior ajuste de parámetros utilizando datos en español en distinto formato. Para la evaluación se propone usar MT-Bench adaptado al español. Esta métrica consiste en un conjunto de preguntas de múltiples turnos creado para evaluar grandes modelos de lenguaje, utilizando otros grandes modelos de lenguaje que tengan mejor desempeño y más parámetros que el modelo a evaluar. Los resultados de esta investigación sugieren que los modelos desarrollados mejoran su capacidad de entender y generar contenido en este idioma, hasta en 2.6 puntos para algunas tareas dentro de la métrica de Mt-bench.es_ES
Patrocinadordc.description.sponsorshipEste trabajo ha sido parcialmente financiado por National Center for Artificial Intelligence CENIA FB210017, Basal ANIDes_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleAumentando capacidades de LLM de seguimiento de instrucciones en españoles_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorchbes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.titulacionuchile.titulacionDoble Titulaciónes_ES
uchile.carrerauchile.carreraIngeniería Civil en Computaciónes_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Ciencias, Mención Computaciónes_ES
uchile.notadetesisuchile.notadetesisMemoria para optar al título de Ingeniero Civil en Computación


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States