Recuperación de imágenes basada en dibujos con técnicas de atención
Tesis
Access note
Acceso abierto
Publication date
2022Metadata
Show full item record
Cómo citar
Saavedra Rondo, José
Cómo citar
Recuperación de imágenes basada en dibujos con técnicas de atención
Author
Professor Advisor
Abstract
En la última década han tenido lugar notables avances en técnicas de aprendizaje de máquinas para el reconocimiento de imágenes, basadas en Deep Learning y Redes neuronales, que buscan extraer representaciones abstractas por medio del entrenamiento de la red con grandes cantidades de datos de ejemplo.
La mayoría de las arquitecturas se han basado en la convolución discreta como bloque fundamental de construcción. Esta convolución discreta define filtros pequeños que "pasan" por la representación bidimensional de la imagen, de manera similar a como ocurre en la convolución continua entre dos funciones. Estos filtros se componen de parámetros entrenables que la red aprende y actúan como detectores de patrones visuales locales.
A pesar de su utilidad, la convolución presenta algunas desventajas: es ineficiente para relacionar puntos distantes de la imagen (por ser ventanas locales), es invariante a la rotación (el mismo patrón rotado es considerado como diferente), y los filtros resultante son fijos (los patrones que detectan no se adaptan en función de la imagen).
Una creciente de cantidad de investigación explora técnicas "atencionales" que, a grandes rasgos, imitan a la atención cognitiva de la que son capaces los seres humanos. Ilustrativamente, estas confieren la capacidad para atender de manera selectiva a elementos que son considerados más importantes, y permiten relacionarlos de manera contextual. Sin embargo, estas técnicas con frecuencia implican mayores costos de tiempo en la práctica, incluso si su eficiencia teórica se compara a la de modelos convolucionales.
En este trabajo comparamos modelos convolucionales y atencionales puros contra una variedad de modelos híbridos, que utilizan convoluciones y 3 tipos de operación atencional, en distintas proporciones, en tareas de clasificación de imágenes y recuperación de imágenes en base a dibujos. Mostramos que algunos modelos híbridos pueden igualar o incluso superar a sus contra partes convolucionales y atencionales puras, con menor cantidad de parámetros entrenables que las redes convolucionales, y menores costos de tiempo que las atencionales.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Memoria para optar al título de Ingeniero Civil en Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/186868
Collections
The following license files are associated with this item: