Show simple item record

Professor Advisordc.contributor.advisorAbeliuk Kimelman, Andrés
Authordc.contributor.authorVera Benavides, Bastián Mauricio
Associate professordc.contributor.otherMuñoz Apablaza, Valentín
Associate professordc.contributor.otherOlmedo Berón, Federico
Admission datedc.date.accessioned2025-06-30T19:13:48Z
Available datedc.date.available2025-06-30T19:13:48Z
Publication datedc.date.issued2024
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/205557
Abstractdc.description.abstractLa clasificación de documentos consiste en asignar a cada documento una categoría específica que lo caracterice, con el fin de facilitar su búsqueda y organización. Sin embargo, dado el continuo crecimiento en la producción de documentos de texto (académicos, revistas, noticias, etc.), la clasificación manual se ha vuelto cada vez menos viable, lo que motiva el desarrollo de modelos computacionales capaces de realizar esta tarea de manera automática. En este contexto, esta memoria busca desarrollar un modelo de clasificación de texto supervisado empleando datos de la plataforma OpenAlex, y proponer una nueva aproximación para la clasificación de documentos. Para ello se desarrollan dos modelos: un Baseline (denominado V1) y un modelo actualizado (V2). Ambos adoptan un sistema de múltiples entradas (multi-inputs), conformadas por el título (title), el resumen (abstract) y las palabras clave (keywords). Estas vistas se procesan mediante BERT (en su versión multilingual-cased), con lo que se obtienen representaciones vectoriales (embeddings) de cada texto. Dichas representaciones se ajustan finamente (fine-tuning) durante el entrenamiento de cada modelo. Luego, a cada vector se le extraen características adicionales a través de distintos mecanismos (por ejemplo, pooling global, capas densas, Multi-Head Attention, etc.), para finalmente alimentar clasificadores que emiten la predicción. Dichos clasificadores aprovechan la estructura jerárquica de los datos siguiendo un enfoque de “Divide y Vencerás”: primero se clasifica el nivel superior (por ejemplo, domain), con lo que se acotan las opciones de clasificación en el nivel subsiguiente (por ejemplo, field), y así sucesivamente hasta el nivel más específico (topic). Esto se implementa a través de un diccionario que garantiza la correspondencia correcta entre los distintos niveles jerárquicos. El uso de BERT en su versión multilingual permite procesar este tipo documentos en diversos idiomas, además de inglés y español, obteniendo resultados prometedores frente al modelo de clasificación disponible en OpenAlex. Así, la propuesta abre nuevas posibilidades para la clasificación masiva de documentos en plataformas como OpenAlex y otros repositorios de conocimiento.es_ES
Patrocinadordc.description.sponsorshipEste trabajo ha sido parcialmente financiado por: National Center for Artificial Intelligence CENIA FB210017, Basal ANIDes_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
Títulodc.titleClasificación jerárquica de documentos en OpenAlex empleando BERT multilingüe: un enfoque “dividir y vencer”es_ES
Document typedc.typeTesises_ES
dc.description.versiondc.description.versionVersión original del autores_ES
dcterms.accessRightsdcterms.accessRightsAcceso abiertoes_ES
Catalogueruchile.catalogadorchbes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.carrerauchile.carreraIngeniería Civil en Computaciónes_ES
uchile.gradoacademicouchile.gradoacademicoLicenciadoes_ES
uchile.notadetesisuchile.notadetesisMemoria para optar al título de Ingeniero Civil en Computaciónes_ES


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States