Deep local directional embeddings para detección de objetos

En el contexto de aprendizaje de máquinas, el presente trabajo aborda cómo una nueva arquitectura de redes neuronales profundas, llamada DLDENet propuesta por el autor, permite obtener mejores resultados en detección de objetos en imágenes, específicamente en detección de logos, en comparación con otros métodos del estado del arte. El diseño de esta nueva arquitectura está inspirada en RetinaNet [37], una arquitectura propuesta por los investigadores de Facebook AI research, que es una one-stage deep convolutional network. Sobre esta arquitectura se proponen diversas mejoras, tanto en la arquitectura misma como en la función de pérdida. Estas mejoras incluyen la normalización de los vectores en los mapas de características, ocupar similitud coseno para generar los logits del módulo de clasificación, incrementar la pérdida de los anchors seleccionados como objetos y forzar que los vectores clasificadores sean perpendiculares entre sí. Esto permite mejorar la precisión, recall, accuracy y mAP del modelo. A esta arquitectura mejorada se le llamó DLDENet (con pronunciación dieldínet), a partir de su nombre extendido: Deep Local Directional Embeddings Network. En la etapa de evaluación se utiliza el dataset FlickrLogos-32 [48], que contiene 32 logos distintos de diversas marcas y decenas de ejemplos por cada uno. Además de contar con un conjunto de evaluación y un kit para evaluar los resultados. Esta nueva arquitectura está acompañada de un framework completo para su entrenamiento, testeo, extensión, transferencia de conocimiento y más. Éste lleva por nombre Torchsight [50], está desarrollado sobre Pytorch [45] y está completamente disponible en GitHub [50]. Con la experimentación se muestra que las mejoras propuestas en DLDENet permiten resolver el problema de la divergencia inicial de RetinaNet sin utilizar un prior en el bias del módulo de clasificación, lo que permite además mejorar la precisión, el recall y pasar de un mAP de 0.65 con RetinaNet a un mAP de 0.77 con DLDENet en la detección de logos usando el conjunto de test de FlickrLogos-32 [48].

General note

Tesis para optar al grado de Magíster en Ciencias, Mención Computación

Memoria para optar al título de Ingeniero Civil en Computación

Identifier

URI: https://repositorio.uchile.cl/handle/2250/176745

Collections