Deep local directional embeddings para detección de objetos
Professor Advisor
dc.contributor.advisor
Saavedra Rondo, José
Author
dc.contributor.author
Souto Herrera, Fabián Eduardo
Associate professor
dc.contributor.other
Hitschfeld Kahler, Nancy
Associate professor
dc.contributor.other
Hogan, Aidan
Associate professor
dc.contributor.other
Mery Quiroz, Domingo
Admission date
dc.date.accessioned
2020-09-10T01:48:10Z
Available date
dc.date.available
2020-09-10T01:48:10Z
Publication date
dc.date.issued
2020
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/176745
General note
dc.description
Tesis para optar al grado de Magíster en Ciencias, Mención Computación
es_ES
General note
dc.description
Memoria para optar al título de Ingeniero Civil en Computación
Abstract
dc.description.abstract
En el contexto de aprendizaje de máquinas, el presente trabajo aborda cómo una nueva arquitectura de redes neuronales profundas, llamada DLDENet propuesta por el autor, permite
obtener mejores resultados en detección de objetos en imágenes, específicamente en detección
de logos, en comparación con otros métodos del estado del arte.
El diseño de esta nueva arquitectura está inspirada en RetinaNet [37], una arquitectura
propuesta por los investigadores de Facebook AI research, que es una one-stage deep convolutional network. Sobre esta arquitectura se proponen diversas mejoras, tanto en la arquitectura
misma como en la función de pérdida. Estas mejoras incluyen la normalización de los vectores
en los mapas de características, ocupar similitud coseno para generar los logits del módulo de
clasificación, incrementar la pérdida de los anchors seleccionados como objetos y forzar que
los vectores clasificadores sean perpendiculares entre sí. Esto permite mejorar la precisión,
recall, accuracy y mAP del modelo. A esta arquitectura mejorada se le llamó DLDENet (con
pronunciación dieldínet), a partir de su nombre extendido: Deep Local Directional Embeddings
Network.
En la etapa de evaluación se utiliza el dataset FlickrLogos-32 [48], que contiene 32 logos
distintos de diversas marcas y decenas de ejemplos por cada uno. Además de contar con un
conjunto de evaluación y un kit para evaluar los resultados.
Esta nueva arquitectura está acompañada de un framework completo para su entrenamiento, testeo, extensión, transferencia de conocimiento y más. Éste lleva por nombre Torchsight
[50], está desarrollado sobre Pytorch [45] y está completamente disponible en GitHub [50].
Con la experimentación se muestra que las mejoras propuestas en DLDENet permiten
resolver el problema de la divergencia inicial de RetinaNet sin utilizar un prior en el bias
del módulo de clasificación, lo que permite además mejorar la precisión, el recall y pasar de
un mAP de 0.65 con RetinaNet a un mAP de 0.77 con DLDENet en la detección de logos
usando el conjunto de test de FlickrLogos-32 [48].