Transfer learning for the multilingual and multi-domain classification of messages relating to crises
Tesis
Access note
Acceso abierto
Publication date
2021Metadata
Show full item record
Cómo citar
Poblete Labra, Bárbara Jeannette
Cómo citar
Transfer learning for the multilingual and multi-domain classification of messages relating to crises
Author
Professor Advisor
Abstract
Las redes sociales han demostrado tener un gran potencial para proporcionar información útil durante los eventos de crisis. Permiten una difusión más rápida de la información crítica en comparación con los medios de comunicación tradicionales, ya que sus usuarios pueden proporcionar información inmediata desde el lugar donde se desarrollan los acontecimientos. Por ello, las plataformas sociales se estudian cada vez más como herramientas para la gestión de desastres y asistencia humanitaria. Sin embargo, la mayoría de los estudios sobre esta área, llamada crisis informatics, se han centrado en el análisis de datos en un idioma particular (generalmente el inglés) o en un tipo de crisis y evento en particular (por ejemplo, terremotos), lo que limita su aplicabilidad en otros contextos.
La falta de datos etiquetados en diferentes idiomas, o que abarquen diferentes tipos de desastres, presenta un gran obstáculo para la aplicación de los enfoques, en su mayoría supervisados, a escenarios más diversos. Para abordar este problema, estudiamos la transferencia de conocimiento (transfer learning), basada en varios modelos de representación de datos, para clasificar mensajes de texto (tweets) relacionados a diferentes tipos de crisis (dominios) en múltiples idiomas. De este modo, se busca aprovechar los datos de idiomas con más recursos para clasificar nuevos eventos de crisis emergentes, incluidos los que se producen en diferentes idiomas.
Según nuestros resultados experimentales, el mejor escenario para clasificar los mensajes relacionados a terremotos en idiomas con pocos recursos, fue entrenando con mensajes de otros dominios escritos en inglés (como explosión e inundación), alcanzando un 69% de macro avg. F1-score para español y un 65% para italiano. Además, añadir mensajes del idioma y dominio destino mejoró la clasificación de las inundaciones en italiano y las explosiones en español. En cuanto a la representación de datos más eficaz, puede variar en función del idioma y dominio a clasificar. Para mensajes en español, los mejores resultados se obtuvieron traduciendo el contenido a inglés y después utilizando los vectores de palabras de GloVe, mientras que para el italiano, fue con los vectores de palabras multilingües de MUSE combinados con características lingüísticas extraídas del texto.
Nuestro análisis muestra que es posible utilizar datos de idiomas con más recursos, como el inglés, para crear modelos eficaces que clasifiquen mensajes de crisis en otros idiomas de menores recursos. Además, la información de eventos de crisis puede ser útil para clasificar situaciones de crisis nuevas, no vistas anteriormente, evitando el problema conocido como cold-start. Nuestros resultados indican que existen patrones subyacentes en las situaciones de crisis que se extienden a través de diferentes lenguajes y dominios de crisis, que pueden ser capturados por representaciones multilingües. De este modo, se mejora nuestra capacidad de clasificación en idiomas de escasos recursos y en nuevos dominios de crisis con pocos o ningún dato de entrenamiento, lo que permite una detección rápida y una mayor cobertura.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias, Mención Computación
Patrocinador
CONICYT, Fondecyt 1191604 Instituto Milenio Fundamentos de los Datos, IMFD Secretaría de Educación Superior, Ciencia, Tecnología e Innovación, SENESCYT
Identifier
URI: https://repositorio.uchile.cl/handle/2250/182803
Collections
The following license files are associated with this item: