Show simple item record

Professor Advisordc.contributor.advisorGraells Garrido, Eduardo
Authordc.contributor.authorGarcía Ríos, Nicolás Francisco
Associate professordc.contributor.otherHevia Angulo, Alejandro
Associate professordc.contributor.otherVillena Rodríguez, Fabián
Admission datedc.date.accessioned2024-05-14T13:47:44Z
Available datedc.date.available2024-05-14T13:47:44Z
Publication datedc.date.issued2023
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/198541
Abstractdc.description.abstractTsundoku es un sistema de análisis y de caracterización de discusiones en Twitter, desarrollado por el profesor Eduardo Graells Garrido en conjunto con otros académicos del área de la computación. El objetivo principal de este sistema es la detección de postura de los usuarios en torno a algún tópico de discusión, junto con la detección de bots dentro de la misma. Este sistema ha sido ocupado para la caracterizar la discusión en torno al referéndum por una nueva constitución en Chile el año 2020, y sigue siendo ocupado por académicos de distintas áreas de estudio para otros tópicos de discusión. Si bien Tsundoku es sumamente útil, también presenta ciertas limitantes que dificultan su uso. Principalmente se destaca el tiempo de ejecución excesivo en el preprocesamiento de tweets, influenciado por el manejo de datos con archivos en formato json, que son inadecuados para este tipo de estudios. Además, la clasificación del lugar de procedencia de los usuarios presenta resultados insatisfactorios, y muy por debajo de la evaluación de la predicción de postura. Así, nace la oportunidad de integrar herramientas de procesamiento masivo de datos dentro de Tsundoku, junto con algunas mejoras en torno a la clasificación que podrían explorarse. Para lo anterior, se integró el uso de la librería PyArrow que permite la interoperabilidad de librerías de manejo de dataframes como dask y pandas, además de incluir métodos optimizados para la lectura y escritura de archivos especializados para el manejo de grandes cantidades de datos. El nuevo formato ocupado para el manejo de dataframes corresponde a ficheros parquet, creado especialmente para lecturas eficientes. Además, se integraron word embeddings al proceso de clasificación, permitiendo añadir un acercamiento contextual al procesamiento de texto. Estos embeddings fueron obtenidos a partir de la arquitectura Transformers, ocupando el modelo pre-entrenado en español conocido como BETO y desarrollado por académicos de la Universidad de Chile. Lo anterior resultó en una reducción del 92 % del tiempo de ejecución para el preprocesamiento de tweets, junto con la creación de un programa que permita a los usuarios transformar sus datos de json a parquet para un manejo eficiente de datos. Por otro lado, la integración de word embeddings a la clasificación permitió aumentar en un 7 % la exactitud de la clasificación del lugar de origen del usuario. Se espera que la exploración e incorporación de más herramientas de procesamiento de lenguaje natural pueda ampliar las oportunidades de estudio y mejorar la detección de postura con Tsundokues_ES
Patrocinadordc.description.sponsorshipCentro Nacional de Inteligencia Artificiales_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleOptimización del sistema de análisis y caracterización de discusiones en Twitter "Tsundoku"es_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.carrerauchile.carreraIngeniería Civil en Computaciónes_ES
uchile.gradoacademicouchile.gradoacademicoLicenciadoes_ES
uchile.notadetesisuchile.notadetesisMemoria para optar al título de Ingeniero Civil en Computación


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States