Show simple item record

Professor Advisordc.contributor.advisorPérez Rojas, Jorge
Authordc.contributor.authorSwysen Cachaña, Thibault Benoit 
Associate professordc.contributor.otherPoblete Labra, Bárbara
Associate professordc.contributor.otherBarrios Núñez, Juan
Admission datedc.date.accessioned2021-05-18T14:20:39Z
Available datedc.date.available2021-05-18T14:20:39Z
Publication datedc.date.issued2020
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/179647
General notedc.descriptionMemoria para optar al título de Ingeniero Civil en Computaciónes_ES
Abstractdc.description.abstractLos word embeddings, también denominados representaciones vectoriales de palabras, son vectores de números reales, de pocas dimensiones, los cuales son utilizados en la resolución de distintas tareas relacionadas al procesamiento de texto. Parte importante del desarrollo de word embeddings, es determinar la capacidad de representación semántica y sintáctica que estos poseen. Para realizar esto, los word embeddings son evaluados utilizando distintos métodos. Estos métodos se dividen en dos tipos: métodos intrínsecos y métodos extrínsecos. Los métodos intrínsecos comparan la relación semántica entre palabras respecto a los vectores correspondientes a dichas palabras. En cambio, los métodos extrínsecos consisten en evaluar el desempeño de los word embeddings al resolver tareas relacionadas al procesamiento de texto. Uno de los principales problemas con la validación de word embeddings, es el poco desarrollo que hay para lenguajes distintos al inglés, entre ellos el español. Producto de esto, no existen herramientas con las cuales evaluar word embeddings para el español. Producto de lo anterior, en este trabajo de titulación, se creará una herramienta con la cual evaluar word embeddings para este lenguaje. A su vez, se busca evaluar una serie de word embeddings del lenguaje español La herramienta de evaluación desarrollada permite la evaluación de word embeddings utilizando métodos intrínsecos y extrínsecos. Los métodos de validación intrínseca implementados fueron: similitud semántica, analogías de palabras, outlier detection y cross-match. Mientras que, para la validación extrínseca, se utilizó una tarea de clasificación de texto. Una vez desarrollada la herramienta de evaluación, esta se utilizó en distintos modelos de word embeddings. A partir de los resultados obtenidos en las evaluaciones, se observó que los word embeddings generados a partir del algoritmo FastText en general obtuvieron los mejores resultados. Mientras que, los word embeddings generados por los algoritmos GloVe y Word2Vec, obtuvieron resultados mixtos en las distintas evaluaciones. Finalmente, el word embeddings BETO en general obtuvo los resultados más bajos, aunque obtiene resultados cercanos al resto de word embeddings durante la evaluación extrínseca. Finalmente, se concluyó exitosamente la creación de una herramienta para la evaluación de word embeddings. Esta herramienta permite la comparación de distintos word embeddings, a través de diferentes métodos de evaluaciones.es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectMétodos de evaluaciónes_ES
Keywordsdc.subjectWord embeddinges_ES
Títulodc.titleValidación de representaciones vectoriales de palabrases_ES
Document typedc.typeTesis
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile