Show simple item record

Professor Advisordc.contributor.advisorPoblete Labra, Bárbara Jeannette
Professor Advisordc.contributor.advisorSarmiento Albornoz, Hernán Andrés
Authordc.contributor.authorSánchez Macías, Cinthia Mabel
Associate professordc.contributor.otherBravo Márquez, Felipe José
Associate professordc.contributor.otherHogan, Aidan
Associate professordc.contributor.otherBonacic Castro, Carolina Alejandra
Admission datedc.date.accessioned2021-11-22T17:21:22Z
Available datedc.date.available2021-11-22T17:21:22Z
Publication datedc.date.issued2021
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/182803
Abstractdc.description.abstractLas redes sociales han demostrado tener un gran potencial para proporcionar información útil durante los eventos de crisis. Permiten una difusión más rápida de la información crítica en comparación con los medios de comunicación tradicionales, ya que sus usuarios pueden proporcionar información inmediata desde el lugar donde se desarrollan los acontecimientos. Por ello, las plataformas sociales se estudian cada vez más como herramientas para la gestión de desastres y asistencia humanitaria. Sin embargo, la mayoría de los estudios sobre esta área, llamada crisis informatics, se han centrado en el análisis de datos en un idioma particular (generalmente el inglés) o en un tipo de crisis y evento en particular (por ejemplo, terremotos), lo que limita su aplicabilidad en otros contextos. La falta de datos etiquetados en diferentes idiomas, o que abarquen diferentes tipos de desastres, presenta un gran obstáculo para la aplicación de los enfoques, en su mayoría supervisados, a escenarios más diversos. Para abordar este problema, estudiamos la transferencia de conocimiento (transfer learning), basada en varios modelos de representación de datos, para clasificar mensajes de texto (tweets) relacionados a diferentes tipos de crisis (dominios) en múltiples idiomas. De este modo, se busca aprovechar los datos de idiomas con más recursos para clasificar nuevos eventos de crisis emergentes, incluidos los que se producen en diferentes idiomas. Según nuestros resultados experimentales, el mejor escenario para clasificar los mensajes relacionados a terremotos en idiomas con pocos recursos, fue entrenando con mensajes de otros dominios escritos en inglés (como explosión e inundación), alcanzando un 69% de macro avg. F1-score para español y un 65% para italiano. Además, añadir mensajes del idioma y dominio destino mejoró la clasificación de las inundaciones en italiano y las explosiones en español. En cuanto a la representación de datos más eficaz, puede variar en función del idioma y dominio a clasificar. Para mensajes en español, los mejores resultados se obtuvieron traduciendo el contenido a inglés y después utilizando los vectores de palabras de GloVe, mientras que para el italiano, fue con los vectores de palabras multilingües de MUSE combinados con características lingüísticas extraídas del texto. Nuestro análisis muestra que es posible utilizar datos de idiomas con más recursos, como el inglés, para crear modelos eficaces que clasifiquen mensajes de crisis en otros idiomas de menores recursos. Además, la información de eventos de crisis puede ser útil para clasificar situaciones de crisis nuevas, no vistas anteriormente, evitando el problema conocido como cold-start. Nuestros resultados indican que existen patrones subyacentes en las situaciones de crisis que se extienden a través de diferentes lenguajes y dominios de crisis, que pueden ser capturados por representaciones multilingües. De este modo, se mejora nuestra capacidad de clasificación en idiomas de escasos recursos y en nuevos dominios de crisis con pocos o ningún dato de entrenamiento, lo que permite una detección rápida y una mayor cobertura.es_ES
Patrocinadordc.description.sponsorshipCONICYT, Fondecyt 1191604 Instituto Milenio Fundamentos de los Datos, IMFD Secretaría de Educación Superior, Ciencia, Tecnología e Innovación, SENESCYTes_ES
Lenguagedc.language.isoenes_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Keywordsdc.subjectMinería de datos
Keywordsdc.subjectRedes sociales
Keywordsdc.subjectDesastres naturales
Keywordsdc.subjectAprendizaje automático de máquinas
Keywordsdc.subjectProcesamiento del lenguaje natural
Keywordsdc.subjectTwitter
Títulodc.titleTransfer learning for the multilingual and multi-domain classification of messages relating to criseses_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.gradoacademicouchile.gradoacademicoMagisteres_ES
uchile.notadetesisuchile.notadetesisTesis para optar al grado de Magíster en Ciencias, Mención Computaciónes_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States