Words, tweets and reviews: leveraging affect knowledge between multiple domains
Professor Advisor
dc.contributor.advisor
Bravo Márquez, Felipe
Author
dc.contributor.author
Tamblay Veas, Cristián Felipe
Associate professor
dc.contributor.other
Gutiérrez Gallardo, Claudio
Associate professor
dc.contributor.other
Benguria Donoso, José
Admission date
dc.date.accessioned
2021-04-14T00:46:31Z
Available date
dc.date.available
2021-04-14T00:46:31Z
Publication date
dc.date.issued
2020
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/179122
General note
dc.description
Memoria para optar al título de Ingeniero Civil en Computación
es_ES
Abstract
dc.description.abstract
Tres dominios populares de aplicación del análisis de sentimiento son: 1) la clasificación de críticas de películas, 2) la extracción de opiniones en Twitter, y 3) la inferencia de la orientación semántica de las palabras. Los elementos léxicos de estos dominios difieren en su longitud, es decir, las reseñas de películas suelen ser más largas que los tweets y las palabras son obviamente más cortas que los tweets, pero también comparten la propiedad de poder ser anotadas con las mismas categorías de afectos (por ejemplo, positivo, negativo, ira, alegría). Además, los modelos de vanguardia para estos dominios se basan en el mismo enfoque: la formación de modelos de aprendizaje automático supervisado sobre ejemplos anotados manualmente. Este enfoque sufre de un importante problema: los ejemplos anotados son escasos y su obtención requiere mucho tiempo y recursos.
En este trabajo proponemos técnicas de transferencia de afectos entre las palabras, los tweets y las críticas de películas utilizando dos métodos de representación: "static word embeddings" utilizando Word2Vec y "contextualized word embeddings" usando BERT. Empleando estos métodos construimos representaciones compatibles para reseñas de películas, tweets y palabras. Entrenamos y evaluamos modelos supervisados en todas las combinaciones de dominios de origen y destino.
Este enfoque es valioso cuando los datos anotados en el dominio de destino son limitados.
Nuestros resultados experimentales muestran que el conocimiento de los afectos puede ser transferido con éxito entre nuestros tres dominios, además, las representaciones contextualizadas tienden a superar a sus homólogas estáticas, y por último, se obtienen mejores resultados de transferencia de aprendizaje cuando el dominio de origen tiene unidades léxicas más largas que el dominio de destino.