Entrenamiento y evaluación de modelos pequeños de lenguaje natural basado en métodos de autoatención
Tesis
Access note
Acceso abierto
Publication date
2021Metadata
Show full item record
Cómo citar
Pérez Rojas, Jorge
Cómo citar
Entrenamiento y evaluación de modelos pequeños de lenguaje natural basado en métodos de autoatención
Professor Advisor
Abstract
Actualmente Inteligencia Artificial es una de las áreas más populares en el uso de nuevas
tecnologías. Dentro de este campo, se integran las redes de aprendizaje profundo que al ser
utilizadas para el procesamiento del lenguajes natural, se ha promovido el desarrollo de distintas
herramientas como la traducción automática entre idiomas, chatbot, asistentes virtuales
entre otros. El avance en este tipo de tecnologías ha sido impulsado gracias a las grandes
cantidades de datos que existen actualmente junto con el aumento del poder computacional.
Sin embargo hoy en día solo algunas instituciones con abundantes recursos económicos han
monopolizado la utilización y el desarrollo de estas tecnologías. Si bien estas mismas instituciones
han realizado esfuerzos por democratizar el acceso a las redes de aprendizaje profundo
dejándolas a libre disposición, el problema es que estas requieren grandes cantidades de poder
computacional para poder utilizarlas. Junto con lo anterior este tipo de tecnologías se
desarrolla principalmente en el idioma inglés, lo que aumenta las dificultades para usar estas
metodologías en contextos particulares de países como Chile.
Con el objetivo de aumentar la disponibilidad de modelos de aprendizaje profundo en
español, en esta memoria presentamos la evaluación de 7 modelos tipo ALBERT en las
tareas de GLUES para determinar su comprensión del lenguaje. Además, presentamos un
nuevo modelo de menor tamaño llamado DistilBETO, el cual entrenamos usando la técnica
de destilación desde un modelo tipo BERT.
El mejor resultado de las evaluaciones en GLUES lo obtuvo s-ALBERT base con un promedio
de 77.03% que es un poco menor al mejor resultado (BETO cased 79.46 %), los resultados
de los demás modelos estuvieron relativamente cerca a excepción de s-ALBERT tiny que solo
logró 68% de promedio en GLUES. DistilBETO logró mantener el 94% del desempeño de
BETO unacesd con un tamaño 40% menor y 50% más rápido en hardware. Creemos que
DistilBETO es la mejor opción a usar si se necesita un modelo liviano manteniendo los buenos
resultados. Se esperaba que los modelos ALBERT obtuvieran mejores resultados pero
creemos que esto se puede lograr realizando una mejor búsqueda de hiperparámetros.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil en Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/183444
Collections
The following license files are associated with this item: