Show simple item record

Professor Advisordc.contributor.advisorSaavedra Rondo, José
Authordc.contributor.authorSouto Herrera, Fabián Eduardo 
Associate professordc.contributor.otherHitschfeld Kahler, Nancy
Associate professordc.contributor.otherHogan, Aidan
Associate professordc.contributor.otherMery Quiroz, Domingo
Admission datedc.date.accessioned2020-09-10T01:48:10Z
Available datedc.date.available2020-09-10T01:48:10Z
Publication datedc.date.issued2020
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/176745
General notedc.descriptionTesis para optar al grado de Magíster en Ciencias, Mención Computaciónes_ES
General notedc.descriptionMemoria para optar al título de Ingeniero Civil en Computación
Abstractdc.description.abstractEn el contexto de aprendizaje de máquinas, el presente trabajo aborda cómo una nueva arquitectura de redes neuronales profundas, llamada DLDENet propuesta por el autor, permite obtener mejores resultados en detección de objetos en imágenes, específicamente en detección de logos, en comparación con otros métodos del estado del arte. El diseño de esta nueva arquitectura está inspirada en RetinaNet [37], una arquitectura propuesta por los investigadores de Facebook AI research, que es una one-stage deep convolutional network. Sobre esta arquitectura se proponen diversas mejoras, tanto en la arquitectura misma como en la función de pérdida. Estas mejoras incluyen la normalización de los vectores en los mapas de características, ocupar similitud coseno para generar los logits del módulo de clasificación, incrementar la pérdida de los anchors seleccionados como objetos y forzar que los vectores clasificadores sean perpendiculares entre sí. Esto permite mejorar la precisión, recall, accuracy y mAP del modelo. A esta arquitectura mejorada se le llamó DLDENet (con pronunciación dieldínet), a partir de su nombre extendido: Deep Local Directional Embeddings Network. En la etapa de evaluación se utiliza el dataset FlickrLogos-32 [48], que contiene 32 logos distintos de diversas marcas y decenas de ejemplos por cada uno. Además de contar con un conjunto de evaluación y un kit para evaluar los resultados. Esta nueva arquitectura está acompañada de un framework completo para su entrenamiento, testeo, extensión, transferencia de conocimiento y más. Éste lleva por nombre Torchsight [50], está desarrollado sobre Pytorch [45] y está completamente disponible en GitHub [50]. Con la experimentación se muestra que las mejoras propuestas en DLDENet permiten resolver el problema de la divergencia inicial de RetinaNet sin utilizar un prior en el bias del módulo de clasificación, lo que permite además mejorar la precisión, el recall y pasar de un mAP de 0.65 con RetinaNet a un mAP de 0.77 con DLDENet en la detección de logos usando el conjunto de test de FlickrLogos-32 [48].es_ES
Lenguagedc.language.isoeses_ES
Publisherdc.publisherUniversidad de Chilees_ES
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile*
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/*
Keywordsdc.subjectAprendizaje de máquinaes_ES
Keywordsdc.subjectComputadores - Procesamiento de imagenes_ES
Keywordsdc.subjectAprendizaje profundoes_ES
Keywordsdc.subjectDetección de objetoses_ES
Títulodc.titleDeep local directional embeddings para detección de objetoses_ES
Document typedc.typeTesis
Catalogueruchile.catalogadorgmmes_ES
Departmentuchile.departamentoDepartamento de Ciencias de la Computaciónes_ES
Facultyuchile.facultadFacultad de Ciencias Físicas y Matemáticases_ES
uchile.titulacionuchile.titulacionDoble Titulaciónes_ES


Files in this item

Icon
Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile