Yotor-You only transform one representation: redes unificadas con transformers para la detección de objetos
Professor Advisor
dc.contributor.advisor
Ruiz del Solar San Martín, Javier
Professor Advisor
dc.contributor.advisor
Loncomilla Zambrana, Patricio
Author
dc.contributor.author
Díaz Villa, José Ignacio
Associate professor
dc.contributor.other
Verschae Tannenbaum, Rodrigo
Associate professor
dc.contributor.other
Sipirán Mendoza, Iván
Admission date
dc.date.accessioned
2024-07-26T17:51:45Z
Available date
dc.date.available
2024-07-26T17:51:45Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.other
10.58011/s2w3-7m21
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/199763
Abstract
dc.description.abstract
Se propuso la arquitectura multimodal YotoR para la detección de objetos. Esta combina la extracción de características de Swin Transformer con el discriminador de YoloR y su
modelamiento del conocimiento implícito.
Los modelos YotoR logran un mejor mAP en comparación con sus partes por separado,
con YotoR Bp4 alcanzando un mAP del 53.6 % en val2017, superando tanto a YoloR P6
como a Swin B.
Además de mejorar el rendimiento de detección, los modelos YotoR ofrecen mejoras significativas en el tiempo de inferencia, destacando Swin Transformer con menor tiempo sin
comprometer su desempeño.
Se abren posibilidades para futuras investigaciones: como explorar si la mejora en el rendimiento se debe principalmente a la combinación con la cabeza de Yolo V4 o al conocimiento
implícito. También se sugiere investigar más a fondo la optimización del tiempo de inferencia
de los modelos YotoR y su aplicabilidad en aplicaciones en tiempo real.
El trabajo confirma la hipótesis inicial: que una arquitectura híbrida combinando elementos de las arquitecturas Yolo y Transformers puede superar el rendimiento de cada una de sus
partes por separado, lo que respalda la idea de colaboraciones arquitectónicas en la detección
de objetos y la visión por computadora.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States