Yotor-You only transform one representation: redes unificadas con transformers para la detección de objetos
Tesis

Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Ruiz del Solar San Martín, Javier
Cómo citar
Yotor-You only transform one representation: redes unificadas con transformers para la detección de objetos
Author
Professor Advisor
Abstract
Se propuso la arquitectura multimodal YotoR para la detección de objetos. Esta combina la extracción de características de Swin Transformer con el discriminador de YoloR y su
modelamiento del conocimiento implícito.
Los modelos YotoR logran un mejor mAP en comparación con sus partes por separado,
con YotoR Bp4 alcanzando un mAP del 53.6 % en val2017, superando tanto a YoloR P6
como a Swin B.
Además de mejorar el rendimiento de detección, los modelos YotoR ofrecen mejoras significativas en el tiempo de inferencia, destacando Swin Transformer con menor tiempo sin
comprometer su desempeño.
Se abren posibilidades para futuras investigaciones: como explorar si la mejora en el rendimiento se debe principalmente a la combinación con la cabeza de Yolo V4 o al conocimiento
implícito. También se sugiere investigar más a fondo la optimización del tiempo de inferencia
de los modelos YotoR y su aplicabilidad en aplicaciones en tiempo real.
El trabajo confirma la hipótesis inicial: que una arquitectura híbrida combinando elementos de las arquitecturas Yolo y Transformers puede superar el rendimiento de cada una de sus
partes por separado, lo que respalda la idea de colaboraciones arquitectónicas en la detección
de objetos y la visión por computadora.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias de Datos Memoria para optar al título de Ingeniería Civil Eléctrica
Collections
The following license files are associated with this item: