Validación de representaciones vectoriales de palabras
Professor Advisor
dc.contributor.advisor
Pérez Rojas, Jorge
Author
dc.contributor.author
Swysen Cachaña, Thibault Benoit
Associate professor
dc.contributor.other
Poblete Labra, Bárbara
Associate professor
dc.contributor.other
Barrios Núñez, Juan
Admission date
dc.date.accessioned
2021-05-18T14:20:39Z
Available date
dc.date.available
2021-05-18T14:20:39Z
Publication date
dc.date.issued
2020
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/179647
General note
dc.description
Memoria para optar al título de Ingeniero Civil en Computación
es_ES
Abstract
dc.description.abstract
Los word embeddings, también denominados representaciones vectoriales de palabras, son
vectores de números reales, de pocas dimensiones, los cuales son utilizados en la resolución
de distintas tareas relacionadas al procesamiento de texto.
Parte importante del desarrollo de word embeddings, es determinar la capacidad de representación semántica y sintáctica que estos poseen. Para realizar esto, los word embeddings
son evaluados utilizando distintos métodos. Estos métodos se dividen en dos tipos: métodos
intrínsecos y métodos extrínsecos. Los métodos intrínsecos comparan la relación semántica
entre palabras respecto a los vectores correspondientes a dichas palabras. En cambio, los
métodos extrínsecos consisten en evaluar el desempeño de los word embeddings al resolver
tareas relacionadas al procesamiento de texto.
Uno de los principales problemas con la validación de word embeddings, es el poco desarrollo que hay para lenguajes distintos al inglés, entre ellos el español. Producto de esto, no
existen herramientas con las cuales evaluar word embeddings para el español.
Producto de lo anterior, en este trabajo de titulación, se creará una herramienta con la
cual evaluar word embeddings para este lenguaje. A su vez, se busca evaluar una serie de
word embeddings del lenguaje español
La herramienta de evaluación desarrollada permite la evaluación de word embeddings utilizando métodos intrínsecos y extrínsecos. Los métodos de validación intrínseca implementados
fueron: similitud semántica, analogías de palabras, outlier detection y cross-match. Mientras
que, para la validación extrínseca, se utilizó una tarea de clasificación de texto.
Una vez desarrollada la herramienta de evaluación, esta se utilizó en distintos modelos de
word embeddings. A partir de los resultados obtenidos en las evaluaciones, se observó que
los word embeddings generados a partir del algoritmo FastText en general obtuvieron los
mejores resultados. Mientras que, los word embeddings generados por los algoritmos GloVe
y Word2Vec, obtuvieron resultados mixtos en las distintas evaluaciones. Finalmente, el word
embeddings BETO en general obtuvo los resultados más bajos, aunque obtiene resultados
cercanos al resto de word embeddings durante la evaluación extrínseca.
Finalmente, se concluyó exitosamente la creación de una herramienta para la evaluación de
word embeddings. Esta herramienta permite la comparación de distintos word embeddings,
a través de diferentes métodos de evaluaciones.