Estudiando obras literarias con herramientas de procesamiento de lenguaje natural
Tesis
Publication date
2017Metadata
Show full item record
Cómo citar
Tobar Henríquez, Felipe
Cómo citar
Estudiando obras literarias con herramientas de procesamiento de lenguaje natural
Author
Professor Advisor
Abstract
En los últimos años, el procesamiento de lenguaje natural (Natural Language Proces-sing, o NLP) ha experimentado importantes avances. Específicamente, en 2013, Google lanzó "word2vec", un algoritmo que propone, a partir de un corpus dado, una representación vecto-rial de las palabras que lo componen. Dicho algoritmo ha tenido un gran éxito principalmentepor dos razones: La primera es el bajo costo computacional de su entrenamiento que permitióun uso masivo, mientras que la segunda es la intuitiva topología inducida por la representación vectorial ilustrada por el popular ejemplo: word2vec("king") - word2vec("man") + word2vec("woman") = word2vec("queen")
En esta memoria, presentamos en un primer lugar un ejemplo ilustrativo del algoritmo "word2vec" mediante su implementación para determinar preguntas duplicadas en Quora, una competencia propuesta por el sitio Kaggle.com. Una vez familiarizados con el algoritmo, nos enfocamos en un problema más abierto que considera el análisis de 45 obras de literatura francesa. En particular, queremos atacar la siguiente pregunta: ¿cómo se puede definir una distancia entre dos libros? Después de haber preparado los libros con el propósito de poder usar el algoritmo, propondremos varios métodos originales para comparar pares de libros. Luego, nos interesará representar estas obras en un espacio, y determinar si dicha representación revela propiedades literarias de las obras consideradas tales como la paternidad o el estilo literario.
General note
Ingeniero Civil Matemático
Identifier
URI: https://repositorio.uchile.cl/handle/2250/146690
Collections
The following license files are associated with this item: