Analizando la relación entre dominios de desinformación en base al título y el cuerpo de una noticia
Tesis

Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Abeliuk Kimelman, Andrés
Cómo citar
Analizando la relación entre dominios de desinformación en base al título y el cuerpo de una noticia
Professor Advisor
Abstract
Dada la relevancia que ha tomado el problema de la desinformación en los últimos años, este trabajo de memoria trata de abordarlo con un enfoque de Natural Language Processing explotando la relación entre el titular y cuerpo de una noticia, centrándose en tres dominios: clickbait, headline stance y fake news. Adicionalmente se aborda el problema de incongruencia, adaptando el corpus de stance.
Usando la arquitectura BERT se logró obtener resultados competentes comparados conlos baseline elegidos, lo que valida el enfoque de titular-cuerpo aplicado para solucionar losproblemas de forma independiente. Pese a ello, existen observaciones respecto a la generalización en el problema de clickbait y la utilidad de usar el cuerpo como parte del proceso de entrenamiento para este dominio. Además fue imposible resolver el problema de incongruencia, pero se atribuye a la calidad de los datos por sobre la arquitectura o la estrategia usada.
Con las arquitecturas entrenadas en cada dominio por separado se realizaron experimentos de predicción cruzada entre dominios de desinformación (cross domain). Esto implica que entrenar una arquitectura en un dominio de desinformación no garantiza que pueda generalizar hacia otro dominio de desinformación.
Bajo ciertos escenarios, una estrategia de transfer learning entre dominios de desinformación aportó mejoras a los resultados, en particular para el problema de clickbait que evidenció un menor sesgo hacia la clase dominante y mejoró su efectividad en las métricas de la clase relevante. Ante la falta de datos en su configuración original, el problema de incongruencia se benefició de arquitecturas previamente entrenadas en otros dominios, aunque no lo suficiente como para mejorar los baselines.
En general, los problemas de stance y congruencia se beneficiarían de mejores cuerpos de datos para entrenar. Estos dos dominios, más el de noticias falsas, también se beneficiarían de datos de prueba más robustos, que apliquen una metodología más robusta para la construcción de los datasets basada en etiquetación manual.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil en Computación
Patrocinador
Este trabajo ha sido parcialmente financiado por ANID FONDECYT grant 1200290 y
National Center for Artificial Intelligence CENIA FB210017, Basal ANID
Identifier
URI: https://repositorio.uchile.cl/handle/2250/204861
Collections
The following license files are associated with this item: