Words, tweets and reviews: leveraging affect knowledge between multiple domains
Tesis
Publication date
2020Metadata
Show full item record
Cómo citar
Bravo Márquez, Felipe
Cómo citar
Words, tweets and reviews: leveraging affect knowledge between multiple domains
Author
Professor Advisor
Abstract
Tres dominios populares de aplicación del análisis de sentimiento son: 1) la clasificación de críticas de películas, 2) la extracción de opiniones en Twitter, y 3) la inferencia de la orientación semántica de las palabras. Los elementos léxicos de estos dominios difieren en su longitud, es decir, las reseñas de películas suelen ser más largas que los tweets y las palabras son obviamente más cortas que los tweets, pero también comparten la propiedad de poder ser anotadas con las mismas categorías de afectos (por ejemplo, positivo, negativo, ira, alegría). Además, los modelos de vanguardia para estos dominios se basan en el mismo enfoque: la formación de modelos de aprendizaje automático supervisado sobre ejemplos anotados manualmente. Este enfoque sufre de un importante problema: los ejemplos anotados son escasos y su obtención requiere mucho tiempo y recursos.
En este trabajo proponemos técnicas de transferencia de afectos entre las palabras, los tweets y las críticas de películas utilizando dos métodos de representación: "static word embeddings" utilizando Word2Vec y "contextualized word embeddings" usando BERT. Empleando estos métodos construimos representaciones compatibles para reseñas de películas, tweets y palabras. Entrenamos y evaluamos modelos supervisados en todas las combinaciones de dominios de origen y destino.
Este enfoque es valioso cuando los datos anotados en el dominio de destino son limitados.
Nuestros resultados experimentales muestran que el conocimiento de los afectos puede ser transferido con éxito entre nuestros tres dominios, además, las representaciones contextualizadas tienden a superar a sus homólogas estáticas, y por último, se obtienen mejores resultados de transferencia de aprendizaje cuando el dominio de origen tiene unidades léxicas más largas que el dominio de destino.
General note
Memoria para optar al título de Ingeniero Civil en Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/179122
Collections
The following license files are associated with this item: