Validación de representaciones vectoriales de palabras
Tesis
Publication date
2020Metadata
Show full item record
Cómo citar
Pérez Rojas, Jorge
Cómo citar
Validación de representaciones vectoriales de palabras
Author
Professor Advisor
Abstract
Los word embeddings, también denominados representaciones vectoriales de palabras, son
vectores de números reales, de pocas dimensiones, los cuales son utilizados en la resolución
de distintas tareas relacionadas al procesamiento de texto.
Parte importante del desarrollo de word embeddings, es determinar la capacidad de representación semántica y sintáctica que estos poseen. Para realizar esto, los word embeddings
son evaluados utilizando distintos métodos. Estos métodos se dividen en dos tipos: métodos
intrínsecos y métodos extrínsecos. Los métodos intrínsecos comparan la relación semántica
entre palabras respecto a los vectores correspondientes a dichas palabras. En cambio, los
métodos extrínsecos consisten en evaluar el desempeño de los word embeddings al resolver
tareas relacionadas al procesamiento de texto.
Uno de los principales problemas con la validación de word embeddings, es el poco desarrollo que hay para lenguajes distintos al inglés, entre ellos el español. Producto de esto, no
existen herramientas con las cuales evaluar word embeddings para el español.
Producto de lo anterior, en este trabajo de titulación, se creará una herramienta con la
cual evaluar word embeddings para este lenguaje. A su vez, se busca evaluar una serie de
word embeddings del lenguaje español
La herramienta de evaluación desarrollada permite la evaluación de word embeddings utilizando métodos intrínsecos y extrínsecos. Los métodos de validación intrínseca implementados
fueron: similitud semántica, analogías de palabras, outlier detection y cross-match. Mientras
que, para la validación extrínseca, se utilizó una tarea de clasificación de texto.
Una vez desarrollada la herramienta de evaluación, esta se utilizó en distintos modelos de
word embeddings. A partir de los resultados obtenidos en las evaluaciones, se observó que
los word embeddings generados a partir del algoritmo FastText en general obtuvieron los
mejores resultados. Mientras que, los word embeddings generados por los algoritmos GloVe
y Word2Vec, obtuvieron resultados mixtos en las distintas evaluaciones. Finalmente, el word
embeddings BETO en general obtuvo los resultados más bajos, aunque obtiene resultados
cercanos al resto de word embeddings durante la evaluación extrínseca.
Finalmente, se concluyó exitosamente la creación de una herramienta para la evaluación de
word embeddings. Esta herramienta permite la comparación de distintos word embeddings,
a través de diferentes métodos de evaluaciones.
General note
Memoria para optar al título de Ingeniero Civil en Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/179647
Collections
The following license files are associated with this item: