Aprendizaje auto-supervisado para detección one-shot en documentos históricos
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Saavedra Rondo, José
Cómo citar
Aprendizaje auto-supervisado para detección one-shot en documentos históricos
Author
Professor Advisor
Abstract
La digitalización continua de documentos históricos ha facilitado el acceso a nuestro patrimonio cultural. Sin embargo, la detección de objetos en estos documentos sigue siendo un desafío complejo debido a la falta de datos etiquetados y a su diversidad y complejidad. En este contexto, la utilización de modelos entrenados de forma auto-supervisada puede ser particularmente útil para extraer características únicas de símbolos y objetos, gracias a su gran capacidad de generalización. Por esta razón, este trabajo se centra en desarrollar un framework basado en la extracción de características usando el modelo auto-supervisado DINOv2 para la detección one-shot en documentos históricos.
El desarrollo del framework se divide en varias etapas. Primero, se analiza el dataset DocExplore, compuesto por 1500 imágenes de documentos históricos y 1447 queries. Luego, se realizan pruebas con el encoder de DINOv2 para analizar los embeddings resultantes. Posteriormente, se desarrolla un método para eliminar los bordes sin información de los documentos del dataset y se experimenta con la correlación 2D de las características extraídas. Se evalúa la tarea de recuperación de imágenes, probando diferentes configuraciones y métodos de comparación de características. Por último, se experimenta con métodos de re-ranking y de reducción de dimensionalidad para mejorar el desempeño del modelo.
Los resultados experimentales muestran que el framework desarrollado se acerca significativamente al estado del arte en la tarea de recuperación de imágenes, superando los resultados de algunos métodos anteriores en queries grandes. Además, el método para eliminar bordes consiguió una mejora en el desempeño del modelo, logrando mantener la información útil en la mayoría de los casos. Sin embargo, se observa un bajo desempeño en las queries pequeñas no cuadradas y una disminución general de las métricas al utilizar UMAP para reducir la dimensionalidad de los embeddings. Además, los métodos de re-ranking desarrollados no ayudaron a mejorar las métricas en las clases con peor desempeño.
Los desafíos a futuro incluyen un mejor ajuste de los parámetros de UMAP y una selección adecuada de los conjuntos de entrada. Además, se sugiere realizar un entrenamiento auto-supervisado de DINOv2 con los documentos del dataset DocExplore y evaluar el framework en otros conjuntos de datos históricos para validar su eficacia y capacidad de generalización.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil Eléctrico
Identifier
URI: https://repositorio.uchile.cl/handle/2250/202248
Collections
The following license files are associated with this item: