Optimización del sistema de análisis y caracterización de discusiones en Twitter "Tsundoku"
Tesis
Access note
Acceso abierto
Publication date
2023Metadata
Show full item record
Cómo citar
Graells Garrido, Eduardo
Cómo citar
Optimización del sistema de análisis y caracterización de discusiones en Twitter "Tsundoku"
Author
Professor Advisor
Abstract
Tsundoku es un sistema de análisis y de caracterización de discusiones en Twitter, desarrollado por el profesor Eduardo Graells Garrido en conjunto con otros académicos del área
de la computación. El objetivo principal de este sistema es la detección de postura de los
usuarios en torno a algún tópico de discusión, junto con la detección de bots dentro de la
misma. Este sistema ha sido ocupado para la caracterizar la discusión en torno al referéndum
por una nueva constitución en Chile el año 2020, y sigue siendo ocupado por académicos de
distintas áreas de estudio para otros tópicos de discusión.
Si bien Tsundoku es sumamente útil, también presenta ciertas limitantes que dificultan
su uso. Principalmente se destaca el tiempo de ejecución excesivo en el preprocesamiento de
tweets, influenciado por el manejo de datos con archivos en formato json, que son inadecuados
para este tipo de estudios. Además, la clasificación del lugar de procedencia de los usuarios
presenta resultados insatisfactorios, y muy por debajo de la evaluación de la predicción de
postura. Así, nace la oportunidad de integrar herramientas de procesamiento masivo de
datos dentro de Tsundoku, junto con algunas mejoras en torno a la clasificación que podrían
explorarse.
Para lo anterior, se integró el uso de la librería PyArrow que permite la interoperabilidad de librerías de manejo de dataframes como dask y pandas, además de incluir métodos
optimizados para la lectura y escritura de archivos especializados para el manejo de grandes
cantidades de datos. El nuevo formato ocupado para el manejo de dataframes corresponde a
ficheros parquet, creado especialmente para lecturas eficientes.
Además, se integraron word embeddings al proceso de clasificación, permitiendo añadir un
acercamiento contextual al procesamiento de texto. Estos embeddings fueron obtenidos a partir de la arquitectura Transformers, ocupando el modelo pre-entrenado en español conocido
como BETO y desarrollado por académicos de la Universidad de Chile.
Lo anterior resultó en una reducción del 92 % del tiempo de ejecución para el preprocesamiento de tweets, junto con la creación de un programa que permita a los usuarios transformar
sus datos de json a parquet para un manejo eficiente de datos. Por otro lado, la integración
de word embeddings a la clasificación permitió aumentar en un 7 % la exactitud de la clasificación del lugar de origen del usuario. Se espera que la exploración e incorporación de
más herramientas de procesamiento de lenguaje natural pueda ampliar las oportunidades de
estudio y mejorar la detección de postura con Tsundoku
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil en Computación
Patrocinador
Centro Nacional de Inteligencia Artificial
Identifier
URI: https://repositorio.uchile.cl/handle/2250/198541
Collections
The following license files are associated with this item: