Recuperación de imágenes basada en dibujos con técnicas de atención

En la última década han tenido lugar notables avances en técnicas de aprendizaje de máquinas para el reconocimiento de imágenes, basadas en Deep Learning y Redes neuronales, que buscan extraer representaciones abstractas por medio del entrenamiento de la red con grandes cantidades de datos de ejemplo. La mayoría de las arquitecturas se han basado en la convolución discreta como bloque fundamental de construcción. Esta convolución discreta define filtros pequeños que "pasan" por la representación bidimensional de la imagen, de manera similar a como ocurre en la convolución continua entre dos funciones. Estos filtros se componen de parámetros entrenables que la red aprende y actúan como detectores de patrones visuales locales. A pesar de su utilidad, la convolución presenta algunas desventajas: es ineficiente para relacionar puntos distantes de la imagen (por ser ventanas locales), es invariante a la rotación (el mismo patrón rotado es considerado como diferente), y los filtros resultante son fijos (los patrones que detectan no se adaptan en función de la imagen). Una creciente de cantidad de investigación explora técnicas "atencionales" que, a grandes rasgos, imitan a la atención cognitiva de la que son capaces los seres humanos. Ilustrativamente, estas confieren la capacidad para atender de manera selectiva a elementos que son considerados más importantes, y permiten relacionarlos de manera contextual. Sin embargo, estas técnicas con frecuencia implican mayores costos de tiempo en la práctica, incluso si su eficiencia teórica se compara a la de modelos convolucionales. En este trabajo comparamos modelos convolucionales y atencionales puros contra una variedad de modelos híbridos, que utilizan convoluciones y 3 tipos de operación atencional, en distintas proporciones, en tareas de clasificación de imágenes y recuperación de imágenes en base a dibujos. Mostramos que algunos modelos híbridos pueden igualar o incluso superar a sus contra partes convolucionales y atencionales puras, con menor cantidad de parámetros entrenables que las redes convolucionales, y menores costos de tiempo que las atencionales.

xmlui.dri2xhtml.METS-1.0.item-notadetesis.item

Memoria para optar al título de Ingeniero Civil en Computación

Identifier

URI: https://repositorio.uchile.cl/handle/2250/186868
DOI: 10.58011/bmgb-7s79

Collections