Light and fast language models for spanish through compression technique
Tesis
Access note
Acceso abierto
Publication date
2023Metadata
Show full item record
Cómo citar
Bravo Márquez, Felipe
Cómo citar
Light and fast language models for spanish through compression technique
Author
Professor Advisor
Abstract
Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) se han convertido en un enfoque común y exitoso para abordar tareas de procesamiento de lenguaje natural (NLP, por sus siglas en inglés), incluyendo, pero no limitado a, clasificación de documentos, reconocimiento de entidades nombradas y respuesta a preguntas. A pesar de su notable rendimiento, utilizar estos LLM en entornos con recursos limitados, como aplicaciones web o móviles, es un desafío, especialmente en escenarios en tiempo real que demandan respuestas rápidas. Recientemente han surgido técnicas para comprimir estos LLM en modelos más pequeños y rápidos, particularmente en el caso de modelos en inglés o multilingües, pero aún es un desafío para otros idiomas. De hecho, el español es el segundo idioma con más hablantes nativos pero carece de este tipo de recursos.
En este trabajo, presentamos ALBETO y Speedy Gonzales, dos nuevos recursos para la comunidad de NLP en español que tienen como objetivo cubrir la brecha en términos de modelos más livianos y rápidos para el español. ALBETO es un conjunto de 5 modelos ligeros, con tamaños que van desde 5M a 223M de parámetros, que están pre-entrenados usando exclusivamente datos en español siguiendo la arquitectura de ALBERT. Evaluamos nuestros modelos ALBETO junto con otros modelos disponibles para el español en un conjunto de 6 tareas y luego, mediante el uso de la técnica de Knowledge Distillation (KD), presentamos Speedy Gonzales, una colección de modelos de lenguaje, basados en ALBETO, más eficientes en inferencia para tareas en español.
Los resultados de nuestro estudio revelan que nuestros modelos ALBETO tienen un rendimiento en tareas similar a otros modelos con velocidad de inferencia comparable, a pesar de ser más ligeros y tener sustancialmente menos parámetros. Además, nuestro modelo ALBETO xxlarge supera a todos los demás modelos pre-entrenados en español que están actualmente disponibles.
En cuanto a nuestros modelos Speedy Gonzales, los resultados indican una mejora en la velocidad de inferencia a expensas de una ligera disminución en el rendimiento en las tareas. Es importante notar que esta disminución es mínima en el caso de nuestros modelos de 8 y 10 capas, mientras que es más pronunciada en los modelos más rápidos con 2-4 capas. Además, nuestro modelo de 10 capas, que llamamos ALBETO base-10, proporciona un rendimiento que es generalmente comparable a los modelos de tamaño base, al tiempo que demuestra mejor velocidad de inferencia.
Todos nuestros modelos (pre-entrenados, fine-tuneados y destilados) están disponibles públicamente en: https://huggingface.co/dccuchile.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias, Mención Computación Memoria para optar al título de Ingeniero Civil en Computación
Patrocinador
FONDECYT de Iniciación 11200290
Identifier
URI: https://repositorio.uchile.cl/handle/2250/196742
Collections
The following license files are associated with this item: