Aprendizaje auto-supervisado para detección one-shot en documentos históricos
Professor Advisor
dc.contributor.advisor
Saavedra Rondo, José
Author
dc.contributor.author
Pizarro Tapia, Marcelo Andrés
Associate professor
dc.contributor.other
Sipirán Mendoza, Iván
Associate professor
dc.contributor.other
Silva Sánchez, Jorge
Admission date
dc.date.accessioned
2024-12-12T16:14:41Z
Available date
dc.date.available
2024-12-12T16:14:41Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/202248
Abstract
dc.description.abstract
La digitalización continua de documentos históricos ha facilitado el acceso a nuestro patrimonio cultural. Sin embargo, la detección de objetos en estos documentos sigue siendo un desafío complejo debido a la falta de datos etiquetados y a su diversidad y complejidad. En este contexto, la utilización de modelos entrenados de forma auto-supervisada puede ser particularmente útil para extraer características únicas de símbolos y objetos, gracias a su gran capacidad de generalización. Por esta razón, este trabajo se centra en desarrollar un framework basado en la extracción de características usando el modelo auto-supervisado DINOv2 para la detección one-shot en documentos históricos.
El desarrollo del framework se divide en varias etapas. Primero, se analiza el dataset DocExplore, compuesto por 1500 imágenes de documentos históricos y 1447 queries. Luego, se realizan pruebas con el encoder de DINOv2 para analizar los embeddings resultantes. Posteriormente, se desarrolla un método para eliminar los bordes sin información de los documentos del dataset y se experimenta con la correlación 2D de las características extraídas. Se evalúa la tarea de recuperación de imágenes, probando diferentes configuraciones y métodos de comparación de características. Por último, se experimenta con métodos de re-ranking y de reducción de dimensionalidad para mejorar el desempeño del modelo.
Los resultados experimentales muestran que el framework desarrollado se acerca significativamente al estado del arte en la tarea de recuperación de imágenes, superando los resultados de algunos métodos anteriores en queries grandes. Además, el método para eliminar bordes consiguió una mejora en el desempeño del modelo, logrando mantener la información útil en la mayoría de los casos. Sin embargo, se observa un bajo desempeño en las queries pequeñas no cuadradas y una disminución general de las métricas al utilizar UMAP para reducir la dimensionalidad de los embeddings. Además, los métodos de re-ranking desarrollados no ayudaron a mejorar las métricas en las clases con peor desempeño.
Los desafíos a futuro incluyen un mejor ajuste de los parámetros de UMAP y una selección adecuada de los conjuntos de entrada. Además, se sugiere realizar un entrenamiento auto-supervisado de DINOv2 con los documentos del dataset DocExplore y evaluar el framework en otros conjuntos de datos históricos para validar su eficacia y capacidad de generalización.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States