Aprendizaje multietiqueta de patrones geométricos en objetos de herencia cultural
Tesis
Access note
Acceso abierto
Publication date
2023Metadata
Show full item record
Cómo citar
Bustos Cárdenas, Benjamín
Cómo citar
Aprendizaje multietiqueta de patrones geométricos en objetos de herencia cultural
Author
Professor Advisor
Abstract
La presente investigación se enmarca en el estudio de objetos de herencia cultural, área de la Arqueología que guarda relación con la categorización y comprensión del patrimonio cultural tangible y que lleva por objetivo facilitar la musealización de este al mismo tiempo que se rescata información contextual del objeto y su cultura subyacente. En particular se aborda el etiquetado de patrones geométricos, proceso a través del cual las formas en la superficie de vasijas son asociadas a múltiples etiquetas que sintetizan sus características geométricas más relevantes.
Más específicamente, el problema que motiva esta investigación es la naturaleza tediosa de dicho proceso. En este sentido, la posibilidad de simplificar la tarea permitiría ahorrar tiempo experto, representando así una oportunidad de aportar valor a la Arqueología desde la Computación y en particular desde la Ciencia de Datos.
La solución propuesta es una herramienta de apoyo al etiquetado, la cual ante una imagen de un patrón geométrico responda con una serie de etiquetas a forma de sugerencia para el experto, reemplazando así parte de la carga relativa a idear etiquetas desde cero por la tarea de seleccionar sugerencias apropiadas.
Tal solución se lleva a cabo mediante técnicas de Aprendizaje Multietiqueta (MLC). En particular, se exploran técnicas tanto desde un enfoque de MLC Tradicional como desde un enfoque de Extreme MLC (XMLC), las cuales se conjugan además con distintas técnicas de tratamiento de datos y de generación de entradas sintéticas.
La investigación toma como entrada los patrones y etiquetas presentes en el libro Ornamente Geometrischen Vasen: Ein Kompendium, obra del arqueólogo Norbert Kunisch.
Los resultados experimentales muestran que los mejores métodos para tal propósito son Binary Relevance con Logistic Regression en el caso Tradicional y Threshold Dependent Neural Network en el caso XMLC. En ambos, el uso de múltiples técnicas para la generación de datos sintéticos y de pesos para tratamiento al desbalance habría resultado fundamental.
La herramienta final cuenta con propiedades tales como el predecir al menos 1 etiqueta correcta para el 95% de los ejemplos, 3 para el 60% y 5 para el 40%, con una Micro Precision que varía entre un 0.85 y un 0.20 según la cantidad de etiquetas posibles, pero con un Micro Recall que se mantiene siempre por sobre 0.65.
Finalmente, se propone como lineamiento para iteraciones futuras el comenzar por obtener retroalimentación usuaria de la herramienta actual, así como por el estudio de la capacidad de generalización de la misma ante conjuntos de datos de distinto origen.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de Datos Memoria para optar al título de Ingeniero Civil en Computación
Collections
The following license files are associated with this item: