A domain-independent and language-agnostic approach for crisis event detection and understanding
Tesis
Access note
Acceso abierto
Publication date
2023Metadata
Show full item record
Cómo citar
Bravo Márquez, Felipe
Cómo citar
A domain-independent and language-agnostic approach for crisis event detection and understanding
Professor Advisor
Abstract
Durante una crisis, los usuarios de medios sociales comparten actualizaciones que pueden ayudar a mejorar el conocimiento del evento. Esto ha motivado a investigadores de múltiples campos de emergencias a estudiar el comportamiento de la propagación de la información en línea. Sin embargo, existen varios retos relacionados con las características de los medios sociales, por ejemplo, los datos no estructurados y ruidosos, el procesamiento de grandes colecciones de mensajes, rumores y información falsa, entre otros.
La mayoría de los estudios realizados se han centrado en la caracterización y detección de crisis a través de redes sociales. Por lo general, han analizado eventos específicos en lugar de estudiar los patrones transversales que surgen de las conversaciones durante las crisis. Además, los estudios han considerado los mensajes en inglés como idioma principal debido a la disponibilidad de recursos y datos. Sin embargo, las crisis suelen producirse en países (por ejemplo, Chile e Italia) en los que las lenguas no inglesas son el idioma principal (español e italiano, respectivamente). Por lo tanto, existe una brecha en comprender las crisis en diferentes dimensiones, como los idiomas, dominios y ubicaciones geográficas.
En esta tesis, presentamos un estudio a gran escala de las crisis debatidas en medios sociales. Nuestro objetivo es descubrir y comprender patrones de comunicación relacionados a crisis en diferentes tipos de eventos, ubicaciones e idiomas. En esta línea, investigamos en tres áreas: 1) proponemos metodologías para caracterizar y descubrir patrones generales de mensajes de medios sociales en una diversidad de crisis y que han ocurrido en diferentes localidades e idioma. 2) realizamos un estudio para clasificar mensajes de crisis teniendo en cuenta una evaluación experimental entre idiomas y dominios. 3) implementamos un método para detectar eventos de crisis que es agnóstico del tipo de evento e idioma de los mensajes.
Los principales resultados de este trabajo son: 1) usando representaciones compactas de mensajes para múltiples crisis, podemos diferenciarlas con una precisión del 75%. 2) implementamos un método para identificar y analizar discusiones - con poca intervención humana - que surgen en crisis de larga duración. 3) demostramos que es posible aprovechar datos de idiomas con altos recursos (ej: inglés) para clasificar los mensajes de otros idiomas (de pocos recursos) con un F1-score promedio de 80%. Al introducir mensajes de un nuevo dominio de crisis, la clasificación alcanza un F1-score de 82%. 4) implementamos un método de detección de crisis que los identifica basándose en anomalías en la actividad de localidades en medios sociales, detectando hasta 80% independiente del dominio y agnóstico al idioma.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Doctor en Computación
Patrocinador
ANID - Millennium Science Initiative Program - Code ICN17 002 y ANID/Scholarship Program/DOCTORADO BECAS CHILE/2020 - 21201101
Identifier
URI: https://repositorio.uchile.cl/handle/2250/195119
Collections
The following license files are associated with this item: