Show simple item record

Professor Advisordc.contributor.advisorPérez Rojas, Jorge
Authordc.contributor.authorDonoso Bustos, Sebastián Alejandro
Associate professordc.contributor.otherSipiran Mendoza, Iván Anselmo
Associate professordc.contributor.otherPerovich Gerosa, Daniel
Admission datedc.date.accessioned2022-01-04T20:19:58Z
Available datedc.date.available2022-01-04T20:19:58Z
Publication datedc.date.issued2021
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/183444
Abstractdc.description.abstractActualmente Inteligencia Artificial es una de las áreas más populares en el uso de nuevas tecnologías. Dentro de este campo, se integran las redes de aprendizaje profundo que al ser utilizadas para el procesamiento del lenguajes natural, se ha promovido el desarrollo de distintas herramientas como la traducción automática entre idiomas, chatbot, asistentes virtuales entre otros. El avance en este tipo de tecnologías ha sido impulsado gracias a las grandes cantidades de datos que existen actualmente junto con el aumento del poder computacional. Sin embargo hoy en día solo algunas instituciones con abundantes recursos económicos han monopolizado la utilización y el desarrollo de estas tecnologías. Si bien estas mismas instituciones han realizado esfuerzos por democratizar el acceso a las redes de aprendizaje profundo dejándolas a libre disposición, el problema es que estas requieren grandes cantidades de poder computacional para poder utilizarlas. Junto con lo anterior este tipo de tecnologías se desarrolla principalmente en el idioma inglés, lo que aumenta las dificultades para usar estas metodologías en contextos particulares de países como Chile. Con el objetivo de aumentar la disponibilidad de modelos de aprendizaje profundo en español, en esta memoria presentamos la evaluación de 7 modelos tipo ALBERT en las tareas de GLUES para determinar su comprensión del lenguaje. Además, presentamos un nuevo modelo de menor tamaño llamado DistilBETO, el cual entrenamos usando la técnica de destilación desde un modelo tipo BERT. El mejor resultado de las evaluaciones en GLUES lo obtuvo s-ALBERT base con un promedio de 77.03% que es un poco menor al mejor resultado (BETO cased 79.46 %), los resultados de los demás modelos estuvieron relativamente cerca a excepción de s-ALBERT tiny que solo logró 68% de promedio en GLUES. DistilBETO logró mantener el 94% del desempeño de BETO unacesd con un tamaño 40% menor y 50% más rápido en hardware. Creemos que DistilBETO es la mejor opción a usar si se necesita un modelo liviano manteniendo los buenos resultados. Se esperaba que los modelos ALBERT obtuvieran mejores resultados pero creemos que esto se puede lograr realizando una mejor búsqueda de hiperparámetros.es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Keywordsdc.subjectAprendizaje profundo
Keywordsdc.subjectInteligencia artificial
Keywordsdc.subjectDeep Learning
Keywordsdc.subjectDistilBETO
Títulodc.titleEntrenamiento y evaluación de modelos pequeños de lenguaje natural basado en métodos de autoatenciónes_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.carrerauchile.carreraIngeniería Civil en Computaciónes_ES
uchile.gradoacademicouchile.gradoacademicoLicenciadoes_ES
uchile.notadetesisuchile.notadetesisMemoria para optar al título de Ingeniero Civil en Computaciónes_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States