Optimización del sistema de análisis y caracterización de discusiones en Twitter "Tsundoku"
Professor Advisor
dc.contributor.advisor
Graells Garrido, Eduardo
Author
dc.contributor.author
García Ríos, Nicolás Francisco
Associate professor
dc.contributor.other
Hevia Angulo, Alejandro
Associate professor
dc.contributor.other
Villena Rodríguez, Fabián
Admission date
dc.date.accessioned
2024-05-14T13:47:44Z
Available date
dc.date.available
2024-05-14T13:47:44Z
Publication date
dc.date.issued
2023
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/198541
Abstract
dc.description.abstract
Tsundoku es un sistema de análisis y de caracterización de discusiones en Twitter, desarrollado por el profesor Eduardo Graells Garrido en conjunto con otros académicos del área
de la computación. El objetivo principal de este sistema es la detección de postura de los
usuarios en torno a algún tópico de discusión, junto con la detección de bots dentro de la
misma. Este sistema ha sido ocupado para la caracterizar la discusión en torno al referéndum
por una nueva constitución en Chile el año 2020, y sigue siendo ocupado por académicos de
distintas áreas de estudio para otros tópicos de discusión.
Si bien Tsundoku es sumamente útil, también presenta ciertas limitantes que dificultan
su uso. Principalmente se destaca el tiempo de ejecución excesivo en el preprocesamiento de
tweets, influenciado por el manejo de datos con archivos en formato json, que son inadecuados
para este tipo de estudios. Además, la clasificación del lugar de procedencia de los usuarios
presenta resultados insatisfactorios, y muy por debajo de la evaluación de la predicción de
postura. Así, nace la oportunidad de integrar herramientas de procesamiento masivo de
datos dentro de Tsundoku, junto con algunas mejoras en torno a la clasificación que podrían
explorarse.
Para lo anterior, se integró el uso de la librería PyArrow que permite la interoperabilidad de librerías de manejo de dataframes como dask y pandas, además de incluir métodos
optimizados para la lectura y escritura de archivos especializados para el manejo de grandes
cantidades de datos. El nuevo formato ocupado para el manejo de dataframes corresponde a
ficheros parquet, creado especialmente para lecturas eficientes.
Además, se integraron word embeddings al proceso de clasificación, permitiendo añadir un
acercamiento contextual al procesamiento de texto. Estos embeddings fueron obtenidos a partir de la arquitectura Transformers, ocupando el modelo pre-entrenado en español conocido
como BETO y desarrollado por académicos de la Universidad de Chile.
Lo anterior resultó en una reducción del 92 % del tiempo de ejecución para el preprocesamiento de tweets, junto con la creación de un programa que permita a los usuarios transformar
sus datos de json a parquet para un manejo eficiente de datos. Por otro lado, la integración
de word embeddings a la clasificación permitió aumentar en un 7 % la exactitud de la clasificación del lugar de origen del usuario. Se espera que la exploración e incorporación de
más herramientas de procesamiento de lenguaje natural pueda ampliar las oportunidades de
estudio y mejorar la detección de postura con Tsundoku
es_ES
Patrocinador
dc.description.sponsorship
Centro Nacional de Inteligencia Artificial
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States