Analizando la relación entre dominios de desinformación en base al título y el cuerpo de una noticia
Professor Advisor
dc.contributor.advisor
Abeliuk Kimelman, Andrés
Professor Advisor
dc.contributor.advisor
Bravo Márquez, Felipe
Author
dc.contributor.author
Matamala Asencio, Bastián Nicolás
Associate professor
dc.contributor.other
Gutiérrez Gallardo, Claudio
Associate professor
dc.contributor.other
Salinas Fernández, Sergio
Admission date
dc.date.accessioned
2025-05-13T21:42:39Z
Available date
dc.date.available
2025-05-13T21:42:39Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/204861
Abstract
dc.description.abstract
Dada la relevancia que ha tomado el problema de la desinformación en los últimos años, este trabajo de memoria trata de abordarlo con un enfoque de Natural Language Processing explotando la relación entre el titular y cuerpo de una noticia, centrándose en tres dominios: clickbait, headline stance y fake news. Adicionalmente se aborda el problema de incongruencia, adaptando el corpus de stance.
Usando la arquitectura BERT se logró obtener resultados competentes comparados conlos baseline elegidos, lo que valida el enfoque de titular-cuerpo aplicado para solucionar losproblemas de forma independiente. Pese a ello, existen observaciones respecto a la generalización en el problema de clickbait y la utilidad de usar el cuerpo como parte del proceso de entrenamiento para este dominio. Además fue imposible resolver el problema de incongruencia, pero se atribuye a la calidad de los datos por sobre la arquitectura o la estrategia usada.
Con las arquitecturas entrenadas en cada dominio por separado se realizaron experimentos de predicción cruzada entre dominios de desinformación (cross domain). Esto implica que entrenar una arquitectura en un dominio de desinformación no garantiza que pueda generalizar hacia otro dominio de desinformación.
Bajo ciertos escenarios, una estrategia de transfer learning entre dominios de desinformación aportó mejoras a los resultados, en particular para el problema de clickbait que evidenció un menor sesgo hacia la clase dominante y mejoró su efectividad en las métricas de la clase relevante. Ante la falta de datos en su configuración original, el problema de incongruencia se benefició de arquitecturas previamente entrenadas en otros dominios, aunque no lo suficiente como para mejorar los baselines.
En general, los problemas de stance y congruencia se beneficiarían de mejores cuerpos de datos para entrenar. Estos dos dominios, más el de noticias falsas, también se beneficiarían de datos de prueba más robustos, que apliquen una metodología más robusta para la construcción de los datasets basada en etiquetación manual.
es_ES
Patrocinador
dc.description.sponsorship
Este trabajo ha sido parcialmente financiado por ANID FONDECYT grant 1200290 y
National Center for Artificial Intelligence CENIA FB210017, Basal ANID
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States