Detección de prendas de vestir utilizando modelos de detección de objetos basados en deep learning
Tesis
Publication date
2020Metadata
Show full item record
Cómo citar
Saavedra Rondo, José
Cómo citar
Detección de prendas de vestir utilizando modelos de detección de objetos basados en deep learning
Author
Professor Advisor
Abstract
El uso de herramientas de visión computacional ha tenido un fuerte impacto en la industria
dadas sus variadas aplicaciones y su capacidad de automatización de complejos y demandan-
tes procesos. Una de las industrias en donde se ha requerido este tipo de herramientas es la
industria de la moda, la cual ha tenido un fuerte crecimiento en los últimos años llegando
a generar billones de dólares. Estas aplicaciones van desde la recomendación de vestimentas
en compras online, hasta la caracterización y generación de estadísticas de vestimentas en
tiendas físicas.
Dado una inmensa cantidad de posibles aplicaciones, se considera que en su mayoría es
necesario realizar detecciones de vestimentas en imágenes, lo cual resulta en una potente
y primordial herramienta para su uso ulterior. Es por esto, que en el presente trabajo se
evalúan modelos de detección de objetos en el contexto de detección de vestimentas. Para
este fin se escogen modelos de object detection del área de deep learning, debido su increíble
capacidad y alta precisión demostrada en la última década. Los modelos escogidos resultan en:
YOLOv3, RetinaNet, Faster R-CNN, Mask R-CNN y TridentNet. Los datasets utilizados para
su entrenamiento son DeepFashion2 y ModaNet, los cuales contienen imágenes de vestimentas
en ambientes de interior y exterior.
Luego de la preparación de los datos y frameworks se da inicio al entrenamiento, en donde
se utiliza una máquina virtual en la nube para acelerar el proceso. Se utiliza ResNet-50
como backbone de los modelos, exceptuando YOLOv3 donde se utiliza la red por defecto
Darknet-53. Luego del entrenamiento, se utiliza la métrica average precision de COCO para
su comparación. Además de esto, y con el fin de evaluar los modelos en un ambiente real, es
que se utiliza un dataset privado proporcionado por el profesor guía.
Se tiene como resultado que TridentNet obtiene el mejor desempeño en todos los datasets, a
costa de un mayor tiempo de inferencia. Se realizan pruebas para analizar el comportamiento
de los modelos en un ambiente real, utilizando el dataset privado. Se concluye que dentro de los
datasets de entrenamiento ModaNet posee mejores resultados en general debido a tener clases
más generales y no tan específicas como si tiene DeepFashion2. Como principal resultado se
tiene que los modelos poseen alta capacidad de detectar vestimentas de amplio uso, como lo
son pantalones, poleras, calzado, lentes, faldas y vestidos, mientras que vestimentas que suelen
estar ocluidas por otras vestimentas o las cuales no poseen forma definida, como bufandas y
corbatas, poseen bajo índice de detección.
Finalmente, se utiliza la detección de vestimentas aplicándose para su uso en clothing
retrieval, en donde dada la detección del modelo se genera un vector de características de la
vestimenta detectada utilizando una red pre-entrenada. Se utiliza DeepFashion2 para evaluar
el resultado. Se obtienen buenos resultados a pesar de lo simple de la estrategia utilizada.
General note
Memoria para optar al título de Ingeniero Civil Eléctrico
Identifier
URI: https://repositorio.uchile.cl/handle/2250/176546
Collections
The following license files are associated with this item: