Recuperación de imágenes basada en dibujos con técnicas de atención
Professor Advisor
dc.contributor.advisor
Saavedra Rondo, José
Author
dc.contributor.author
Mondaca Wyman, Gonzalo Andrés
Associate professor
dc.contributor.other
Navarro Badino, Gonzalo
Associate professor
dc.contributor.other
Rivara Zúñiga, María Cecilia
Admission date
dc.date.accessioned
2022-07-21T14:31:12Z
Available date
dc.date.available
2022-07-21T14:31:12Z
Publication date
dc.date.issued
2022
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/186868
Abstract
dc.description.abstract
En la última década han tenido lugar notables avances en técnicas de aprendizaje de máquinas para el reconocimiento de imágenes, basadas en Deep Learning y Redes neuronales, que buscan extraer representaciones abstractas por medio del entrenamiento de la red con grandes cantidades de datos de ejemplo.
La mayoría de las arquitecturas se han basado en la convolución discreta como bloque fundamental de construcción. Esta convolución discreta define filtros pequeños que "pasan" por la representación bidimensional de la imagen, de manera similar a como ocurre en la convolución continua entre dos funciones. Estos filtros se componen de parámetros entrenables que la red aprende y actúan como detectores de patrones visuales locales.
A pesar de su utilidad, la convolución presenta algunas desventajas: es ineficiente para relacionar puntos distantes de la imagen (por ser ventanas locales), es invariante a la rotación (el mismo patrón rotado es considerado como diferente), y los filtros resultante son fijos (los patrones que detectan no se adaptan en función de la imagen).
Una creciente de cantidad de investigación explora técnicas "atencionales" que, a grandes rasgos, imitan a la atención cognitiva de la que son capaces los seres humanos. Ilustrativamente, estas confieren la capacidad para atender de manera selectiva a elementos que son considerados más importantes, y permiten relacionarlos de manera contextual. Sin embargo, estas técnicas con frecuencia implican mayores costos de tiempo en la práctica, incluso si su eficiencia teórica se compara a la de modelos convolucionales.
En este trabajo comparamos modelos convolucionales y atencionales puros contra una variedad de modelos híbridos, que utilizan convoluciones y 3 tipos de operación atencional, en distintas proporciones, en tareas de clasificación de imágenes y recuperación de imágenes en base a dibujos. Mostramos que algunos modelos híbridos pueden igualar o incluso superar a sus contra partes convolucionales y atencionales puras, con menor cantidad de parámetros entrenables que las redes convolucionales, y menores costos de tiempo que las atencionales.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States