Entrenamiento y evaluación de modelos pequeños de lenguaje natural basado en métodos de autoatención
Professor Advisor
dc.contributor.advisor
Pérez Rojas, Jorge
Author
dc.contributor.author
Donoso Bustos, Sebastián Alejandro
Associate professor
dc.contributor.other
Sipiran Mendoza, Iván Anselmo
Associate professor
dc.contributor.other
Perovich Gerosa, Daniel
Admission date
dc.date.accessioned
2022-01-04T20:19:58Z
Available date
dc.date.available
2022-01-04T20:19:58Z
Publication date
dc.date.issued
2021
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/183444
Abstract
dc.description.abstract
Actualmente Inteligencia Artificial es una de las áreas más populares en el uso de nuevas
tecnologías. Dentro de este campo, se integran las redes de aprendizaje profundo que al ser
utilizadas para el procesamiento del lenguajes natural, se ha promovido el desarrollo de distintas
herramientas como la traducción automática entre idiomas, chatbot, asistentes virtuales
entre otros. El avance en este tipo de tecnologías ha sido impulsado gracias a las grandes
cantidades de datos que existen actualmente junto con el aumento del poder computacional.
Sin embargo hoy en día solo algunas instituciones con abundantes recursos económicos han
monopolizado la utilización y el desarrollo de estas tecnologías. Si bien estas mismas instituciones
han realizado esfuerzos por democratizar el acceso a las redes de aprendizaje profundo
dejándolas a libre disposición, el problema es que estas requieren grandes cantidades de poder
computacional para poder utilizarlas. Junto con lo anterior este tipo de tecnologías se
desarrolla principalmente en el idioma inglés, lo que aumenta las dificultades para usar estas
metodologías en contextos particulares de países como Chile.
Con el objetivo de aumentar la disponibilidad de modelos de aprendizaje profundo en
español, en esta memoria presentamos la evaluación de 7 modelos tipo ALBERT en las
tareas de GLUES para determinar su comprensión del lenguaje. Además, presentamos un
nuevo modelo de menor tamaño llamado DistilBETO, el cual entrenamos usando la técnica
de destilación desde un modelo tipo BERT.
El mejor resultado de las evaluaciones en GLUES lo obtuvo s-ALBERT base con un promedio
de 77.03% que es un poco menor al mejor resultado (BETO cased 79.46 %), los resultados
de los demás modelos estuvieron relativamente cerca a excepción de s-ALBERT tiny que solo
logró 68% de promedio en GLUES. DistilBETO logró mantener el 94% del desempeño de
BETO unacesd con un tamaño 40% menor y 50% más rápido en hardware. Creemos que
DistilBETO es la mejor opción a usar si se necesita un modelo liviano manteniendo los buenos
resultados. Se esperaba que los modelos ALBERT obtuvieran mejores resultados pero
creemos que esto se puede lograr realizando una mejor búsqueda de hiperparámetros.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States