Clasificación jerárquica de documentos en OpenAlex empleando BERT multilingüe: un enfoque “dividir y vencer”
Professor Advisor
dc.contributor.advisor
Abeliuk Kimelman, Andrés
Author
dc.contributor.author
Vera Benavides, Bastián Mauricio
Associate professor
dc.contributor.other
Muñoz Apablaza, Valentín
Associate professor
dc.contributor.other
Olmedo Berón, Federico
Admission date
dc.date.accessioned
2025-06-30T19:13:48Z
Available date
dc.date.available
2025-06-30T19:13:48Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/205557
Abstract
dc.description.abstract
La clasificación de documentos consiste en asignar a cada documento una categoría específica que lo caracterice, con el fin de facilitar su búsqueda y organización. Sin embargo, dado el continuo crecimiento en la producción de documentos de texto (académicos, revistas, noticias, etc.), la clasificación manual se ha vuelto cada vez menos viable, lo que motiva el desarrollo de modelos computacionales capaces de realizar esta tarea de manera automática. En este contexto, esta memoria busca desarrollar un modelo de clasificación de texto supervisado empleando datos de la plataforma OpenAlex, y proponer una nueva aproximación para la clasificación de documentos.
Para ello se desarrollan dos modelos: un Baseline (denominado V1) y un modelo actualizado (V2). Ambos adoptan un sistema de múltiples entradas (multi-inputs), conformadas por el título (title), el resumen (abstract) y las palabras clave (keywords). Estas vistas se procesan mediante BERT (en su versión multilingual-cased), con lo que se obtienen representaciones vectoriales (embeddings) de cada texto. Dichas representaciones se ajustan finamente (fine-tuning) durante el entrenamiento de cada modelo. Luego, a cada vector se le extraen características adicionales a través de distintos mecanismos (por ejemplo, pooling global, capas densas, Multi-Head Attention, etc.), para finalmente alimentar clasificadores que emiten la predicción.
Dichos clasificadores aprovechan la estructura jerárquica de los datos siguiendo un enfoque de “Divide y Vencerás”: primero se clasifica el nivel superior (por ejemplo, domain), con lo que se acotan las opciones de clasificación en el nivel subsiguiente (por ejemplo, field), y así sucesivamente hasta el nivel más específico (topic). Esto se implementa a través de un diccionario que garantiza la correspondencia correcta entre los distintos niveles jerárquicos.
El uso de BERT en su versión multilingual permite procesar este tipo documentos en diversos idiomas, además de inglés y español, obteniendo resultados prometedores frente al modelo de clasificación disponible en OpenAlex. Así, la propuesta abre nuevas posibilidades para la clasificación masiva de documentos en plataformas como OpenAlex y otros repositorios de conocimiento.
es_ES
Patrocinador
dc.description.sponsorship
Este trabajo ha sido parcialmente financiado por:
National Center for Artificial Intelligence CENIA FB210017, Basal ANID
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States