Clasificación jerárquica de documentos en OpenAlex empleando BERT multilingüe: un enfoque “dividir y vencer”

La clasificación de documentos consiste en asignar a cada documento una categoría específica que lo caracterice, con el fin de facilitar su búsqueda y organización. Sin embargo, dado el continuo crecimiento en la producción de documentos de texto (académicos, revistas, noticias, etc.), la clasificación manual se ha vuelto cada vez menos viable, lo que motiva el desarrollo de modelos computacionales capaces de realizar esta tarea de manera automática. En este contexto, esta memoria busca desarrollar un modelo de clasificación de texto supervisado empleando datos de la plataforma OpenAlex, y proponer una nueva aproximación para la clasificación de documentos. Para ello se desarrollan dos modelos: un Baseline (denominado V1) y un modelo actualizado (V2). Ambos adoptan un sistema de múltiples entradas (multi-inputs), conformadas por el título (title), el resumen (abstract) y las palabras clave (keywords). Estas vistas se procesan mediante BERT (en su versión multilingual-cased), con lo que se obtienen representaciones vectoriales (embeddings) de cada texto. Dichas representaciones se ajustan finamente (fine-tuning) durante el entrenamiento de cada modelo. Luego, a cada vector se le extraen características adicionales a través de distintos mecanismos (por ejemplo, pooling global, capas densas, Multi-Head Attention, etc.), para finalmente alimentar clasificadores que emiten la predicción. Dichos clasificadores aprovechan la estructura jerárquica de los datos siguiendo un enfoque de “Divide y Vencerás”: primero se clasifica el nivel superior (por ejemplo, domain), con lo que se acotan las opciones de clasificación en el nivel subsiguiente (por ejemplo, field), y así sucesivamente hasta el nivel más específico (topic). Esto se implementa a través de un diccionario que garantiza la correspondencia correcta entre los distintos niveles jerárquicos. El uso de BERT en su versión multilingual permite procesar este tipo documentos en diversos idiomas, además de inglés y español, obteniendo resultados prometedores frente al modelo de clasificación disponible en OpenAlex. Así, la propuesta abre nuevas posibilidades para la clasificación masiva de documentos en plataformas como OpenAlex y otros repositorios de conocimiento.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Memoria para optar al título de Ingeniero Civil en Computación

Patrocinador

Este trabajo ha sido parcialmente financiado por: National Center for Artificial Intelligence CENIA FB210017, Basal ANID

Identifier

URI: https://repositorio.uchile.cl/handle/2250/205557
DOI: 10.58011/cq6z-y229

Collections