Knowledge discovery from news events on twitter
Author
Professor Advisor
Abstract
La actividad online en las redes sociales comprende el consumo y la producción
de contenido asociado a eventos noticiosos. Cada día se publica alrededor de
quinientos millones de mensajes en Twitter, y de acuerdo a encuestas, el 59% de
sus usuarios usa la plataforma como un medio para enterarse de las noticias. La
alta tasa de producción de contenido multimedia (texto, imágenes, videos)
requiere modelos flexibles para comprender las dinámicas de la información que
se propaga por los medios sociales. Esta tesis propone la creación de modelos
contextualizados de eventos noticiosos basados en el contenido que generan los
usuarios de las redes sociales online. El objetivo de estos modelos es proveer
los medios para realizar análisis cuantitativo de alto nivel de eventos
noticiosos. Los modelos propuestos son diseñados desde tres perspectivas: (1) la
actividad de los usuarios que reaccionan ante un evento cuando éste sucede, (2)
el contexto espacio-temporal en el cual los eventos se desarrollan, y (3) la
agregación del contenido que puede ser aprovechada para generar una
representación exhaustiva de un evento. Para este trabajo recolectamos un
conjunto de datos de tuits asociados a contenido noticioso, desde el 2013 al
2015, abarcando veinte mil eventos, que corresponden a cerca de doscientos
millones de tuits.
Primero, observamos que los eventos tienen características particulares basadas
en la actividad de los usuarios, y que estas características son muy
distinguibles en las primeras etapas de su desarrollo. Proponemos un modelo de
representación de eventos basado en la actividad de los usuarios, caracterizamos
eventos en base a distintos niveles de actividad, y mostramos que es posible
predecir con alta precisión el nivel de actividad que un evento hubiera tenido
usando características agregadas. Segundo, desarrollamos una representación
espacio-temporal de eventos basada en entidades geo-políticas (ej. países).
Caracterizamos eventos basados en los países asociados a éstos, y mostramos que
esta representación nos permite retratar relaciones internacionales entre países
basadas en contenido en medios sociales. Finalmente estudiamos las
características del contenido de los eventos e introducemos una representación
liviana y compacta de eventos basada en URLs (enlaces) en común que son
compartidos en mensajes en las redes sociales. Sugerimos que agregar contenido
basado en URLs comunes nos permite identificar tópicos eficientemente, sin
perder una cantidad considerable del contenido. Estas diversas representaciones
de eventos son útiles, novedosas, y efectivas para realizar análisis
cuantitativo de alto nivel de eventos noticiosos.
General note
Tesis para optar al grado de Doctor en Ciencias, Mención Computación
Patrocinador
CONICYT PCHA/Doctorado Nacional 2015/21151445 y por el Instituto Milenio de Fundamentos de los Datos, IMFD
Identifier
URI: https://repositorio.uchile.cl/handle/2250/178582
Collections
The following license files are associated with this item: