Show simple item record

Professor Advisordc.contributor.advisorBravo Márquez, Felipe
Authordc.contributor.authorCañete López, José Rodolfo
Associate professordc.contributor.otherDunstan Escudero, Jocelyn
Associate professordc.contributor.otherHogan, Aidan
Associate professordc.contributor.otherSipiran Mendoza, Iván
Admission datedc.date.accessioned2023-12-14T21:03:41Z
Available datedc.date.available2023-12-14T21:03:41Z
Publication datedc.date.issued2023
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/196742
Abstractdc.description.abstractLos grandes modelos de lenguaje (LLM, por sus siglas en inglés) se han convertido en un enfoque común y exitoso para abordar tareas de procesamiento de lenguaje natural (NLP, por sus siglas en inglés), incluyendo, pero no limitado a, clasificación de documentos, reconocimiento de entidades nombradas y respuesta a preguntas. A pesar de su notable rendimiento, utilizar estos LLM en entornos con recursos limitados, como aplicaciones web o móviles, es un desafío, especialmente en escenarios en tiempo real que demandan respuestas rápidas. Recientemente han surgido técnicas para comprimir estos LLM en modelos más pequeños y rápidos, particularmente en el caso de modelos en inglés o multilingües, pero aún es un desafío para otros idiomas. De hecho, el español es el segundo idioma con más hablantes nativos pero carece de este tipo de recursos. En este trabajo, presentamos ALBETO y Speedy Gonzales, dos nuevos recursos para la comunidad de NLP en español que tienen como objetivo cubrir la brecha en términos de modelos más livianos y rápidos para el español. ALBETO es un conjunto de 5 modelos ligeros, con tamaños que van desde 5M a 223M de parámetros, que están pre-entrenados usando exclusivamente datos en español siguiendo la arquitectura de ALBERT. Evaluamos nuestros modelos ALBETO junto con otros modelos disponibles para el español en un conjunto de 6 tareas y luego, mediante el uso de la técnica de Knowledge Distillation (KD), presentamos Speedy Gonzales, una colección de modelos de lenguaje, basados en ALBETO, más eficientes en inferencia para tareas en español. Los resultados de nuestro estudio revelan que nuestros modelos ALBETO tienen un rendimiento en tareas similar a otros modelos con velocidad de inferencia comparable, a pesar de ser más ligeros y tener sustancialmente menos parámetros. Además, nuestro modelo ALBETO xxlarge supera a todos los demás modelos pre-entrenados en español que están actualmente disponibles. En cuanto a nuestros modelos Speedy Gonzales, los resultados indican una mejora en la velocidad de inferencia a expensas de una ligera disminución en el rendimiento en las tareas. Es importante notar que esta disminución es mínima en el caso de nuestros modelos de 8 y 10 capas, mientras que es más pronunciada en los modelos más rápidos con 2-4 capas. Además, nuestro modelo de 10 capas, que llamamos ALBETO base-10, proporciona un rendimiento que es generalmente comparable a los modelos de tamaño base, al tiempo que demuestra mejor velocidad de inferencia. Todos nuestros modelos (pre-entrenados, fine-tuneados y destilados) están disponibles públicamente en: https://huggingface.co/dccuchile.es_ES
Patrocinadordc.description.sponsorshipFONDECYT de Iniciación 11200290es_ES
Lenguagedc.language.isoenes_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleLight and fast language models for spanish through compression techniquees_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.titulacionuchile.titulacionDoble Titulaciónes_ES
uchile.carrerauchile.carreraIngeniería Civil en Computaciónes_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Ciencias, Mención Computaciónes_ES
uchile.notadetesisuchile.notadetesisMemoria para optar al título de Ingeniero Civil en Computación


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States