Deep local directional embeddings para detección de objetos
Tesis
Publication date
2020Metadata
Show full item record
Cómo citar
Saavedra Rondo, José
Cómo citar
Deep local directional embeddings para detección de objetos
Author
Professor Advisor
Abstract
En el contexto de aprendizaje de máquinas, el presente trabajo aborda cómo una nueva arquitectura de redes neuronales profundas, llamada DLDENet propuesta por el autor, permite
obtener mejores resultados en detección de objetos en imágenes, específicamente en detección
de logos, en comparación con otros métodos del estado del arte.
El diseño de esta nueva arquitectura está inspirada en RetinaNet [37], una arquitectura
propuesta por los investigadores de Facebook AI research, que es una one-stage deep convolutional network. Sobre esta arquitectura se proponen diversas mejoras, tanto en la arquitectura
misma como en la función de pérdida. Estas mejoras incluyen la normalización de los vectores
en los mapas de características, ocupar similitud coseno para generar los logits del módulo de
clasificación, incrementar la pérdida de los anchors seleccionados como objetos y forzar que
los vectores clasificadores sean perpendiculares entre sí. Esto permite mejorar la precisión,
recall, accuracy y mAP del modelo. A esta arquitectura mejorada se le llamó DLDENet (con
pronunciación dieldínet), a partir de su nombre extendido: Deep Local Directional Embeddings
Network.
En la etapa de evaluación se utiliza el dataset FlickrLogos-32 [48], que contiene 32 logos
distintos de diversas marcas y decenas de ejemplos por cada uno. Además de contar con un
conjunto de evaluación y un kit para evaluar los resultados.
Esta nueva arquitectura está acompañada de un framework completo para su entrenamiento, testeo, extensión, transferencia de conocimiento y más. Éste lleva por nombre Torchsight
[50], está desarrollado sobre Pytorch [45] y está completamente disponible en GitHub [50].
Con la experimentación se muestra que las mejoras propuestas en DLDENet permiten
resolver el problema de la divergencia inicial de RetinaNet sin utilizar un prior en el bias
del módulo de clasificación, lo que permite además mejorar la precisión, el recall y pasar de
un mAP de 0.65 con RetinaNet a un mAP de 0.77 con DLDENet en la detección de logos
usando el conjunto de test de FlickrLogos-32 [48].
General note
Tesis para optar al grado de Magíster en Ciencias, Mención Computación Memoria para optar al título de Ingeniero Civil en Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/176745
Collections
The following license files are associated with this item: