Entrenamiento y evaluación de modelos pequeños de lenguaje natural basado en métodos de autoatención

Donoso Bustos, Sebastián Alejandro

Professor Advisor	dc.contributor.advisor	Pérez Rojas, Jorge
Author	dc.contributor.author	Donoso Bustos, Sebastián Alejandro
Associate professor	dc.contributor.other	Sipiran Mendoza, Iván Anselmo
Associate professor	dc.contributor.other	Perovich Gerosa, Daniel
Admission date	dc.date.accessioned	2022-01-04T20:19:58Z
Available date	dc.date.available	2022-01-04T20:19:58Z
Publication date	dc.date.issued	2021
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/183444
Abstract	dc.description.abstract	Actualmente Inteligencia Artificial es una de las áreas más populares en el uso de nuevas tecnologías. Dentro de este campo, se integran las redes de aprendizaje profundo que al ser utilizadas para el procesamiento del lenguajes natural, se ha promovido el desarrollo de distintas herramientas como la traducción automática entre idiomas, chatbot, asistentes virtuales entre otros. El avance en este tipo de tecnologías ha sido impulsado gracias a las grandes cantidades de datos que existen actualmente junto con el aumento del poder computacional. Sin embargo hoy en día solo algunas instituciones con abundantes recursos económicos han monopolizado la utilización y el desarrollo de estas tecnologías. Si bien estas mismas instituciones han realizado esfuerzos por democratizar el acceso a las redes de aprendizaje profundo dejándolas a libre disposición, el problema es que estas requieren grandes cantidades de poder computacional para poder utilizarlas. Junto con lo anterior este tipo de tecnologías se desarrolla principalmente en el idioma inglés, lo que aumenta las dificultades para usar estas metodologías en contextos particulares de países como Chile. Con el objetivo de aumentar la disponibilidad de modelos de aprendizaje profundo en español, en esta memoria presentamos la evaluación de 7 modelos tipo ALBERT en las tareas de GLUES para determinar su comprensión del lenguaje. Además, presentamos un nuevo modelo de menor tamaño llamado DistilBETO, el cual entrenamos usando la técnica de destilación desde un modelo tipo BERT. El mejor resultado de las evaluaciones en GLUES lo obtuvo s-ALBERT base con un promedio de 77.03% que es un poco menor al mejor resultado (BETO cased 79.46 %), los resultados de los demás modelos estuvieron relativamente cerca a excepción de s-ALBERT tiny que solo logró 68% de promedio en GLUES. DistilBETO logró mantener el 94% del desempeño de BETO unacesd con un tamaño 40% menor y 50% más rápido en hardware. Creemos que DistilBETO es la mejor opción a usar si se necesita un modelo liviano manteniendo los buenos resultados. Se esperaba que los modelos ALBERT obtuvieran mejores resultados pero creemos que esto se puede lograr realizando una mejor búsqueda de hiperparámetros.	es_ES
Lenguage	dc.language.iso	es	es_ES
Publisher	dc.publisher	Universidad de Chile	es_ES
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	*
Keywords	dc.subject	Aprendizaje profundo
Keywords	dc.subject	Inteligencia artificial
Keywords	dc.subject	Deep Learning
Keywords	dc.subject	DistilBETO
Título	dc.title	Entrenamiento y evaluación de modelos pequeños de lenguaje natural basado en métodos de autoatención	es_ES
Document type	dc.type	Tesis	es_ES
dc.description.version	dc.description.version	Versión original del autor	es_ES
dcterms.accessRights	dcterms.accessRights	Acceso abierto	es_ES
Cataloguer	uchile.catalogador	gmm	es_ES
Department	uchile.departamento	Departamento de Ciencias de la Computación	es_ES
Faculty	uchile.facultad	Facultad de Ciencias Físicas y Matemáticas	es_ES
uchile.carrera	uchile.carrera	Ingeniería Civil en Computación	es_ES
uchile.gradoacademico	uchile.gradoacademico	Licenciado	es_ES
uchile.notadetesis	uchile.notadetesis	Memoria para optar al título de Ingeniero Civil en Computación	es_ES

Files in this item

Name:: Entrenamiento-y-evaluacion-de- ...
Size:: 877.2Kb
Format:: PDF

Name:: TablaConten.pdf
Size:: 112.9Kb
Format:: PDF

This item appears in the following Collection(s)

Tesis Pregrado
Tesis Pregrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States