Abstract | dc.description.abstract | Motivación: El problema de manejar grandes cantidades de datos producidos por usuarios de los llamados sitios de social media ya no parece ser nuevo. Por ejemplo, en la red social online Twitter cada día se publica más de 400 millones de mensajes. Y este diluvio de datos está afectando a cada vez más escenarios. En particular, el problema de comprender qué está pasando en el mundo se vuelve un problema cada vez más difícil, debido a la gran cantidad de fuentes de noticias. Breaking News corresponde a noticias que interrumpen el flujo normal de radio y televisión. En las redes sociales son un fenómeno más complicado de estudiar, debido a un paradigma distinto: la producción y el consumo descentralizado de datos en modo streaming. Comprender el impacto de las noticias en las redes sociales online es un problema difícil e interesante de investigar.
Propósito: El objetivo principal de este proyecto es responder a la pregunta: ¿Es posible predecir si un evento noticioso causará impacto en las redes sociales online, poco después de su publicación? Se utiliza Twitter como la fuente de datos.
Contribuciones: Se define la noción de impacto, basado en la tasa de llegada de los tweets que discuten los eventos. Luego, se predice el impacto de los eventos usando características de los mensajes, como el número de veces que son compartidos, el puntaje de sentimiento, etc. La tarea de predicción tiene buenos resultados de clasificación incluso usando el primer 5% de los datos, y aunque mejora al agregar más datos, F-score y accuracy decrecen al usar el 100%. Además, se caracterizan los eventos en Twitter, encontrando propiedades distintivas entre eventos de alto y bajo impacto. En los eventos de alto impacto la información se propaga a una mayor velocidad y escala. Además, son más focalizados en términos de vocabulario, y muestran mayor puntaje de sentimiento. Eventos de bajo impacto son más conversacionales: los usuarios que hablan acerca de esos eventos usan un vocabulario más extenso y comparten más recursos, como URLs o hashtags.
Metodología: Se propone y desarrolla una metodología de recolección de datos e identificación de eventos. El conjunto de datos final contiene 9,000 eventos y 45 millones de tweets, aproximadamente. Para asignar la categoría de impacto de un evento, se usan métodos de clustering para aprender una representación multidimensional de éstos. Luego, se distingue entre eventos de alto y bajo impacto. Usando un clasificador de regresión logística sobre porciones de los datos, se clasifican eventos para predecir su categoría de impacto, usando la representación multidimensional como base para la evaluación.
Valor: El valor de este trabajo yace en sus posibles aplicaciones: puede apoyar el trabajo periodístico, sirve para generar resúmenes automáticos valiosos, desarrollar sistemas de recomendación, publicidad focalizada, encontrar contenido relevante, entre otras. | en_US |