Detección de pose humana en imágenes térmicas
Professor Advisor
Abstract
La detección de pose humana, tarea que concierne la localización de puntos importantes del cuerpo (keypoints) humano en imágenes, tiene una gran variedad de aplicaciones. Estas abarcan áreas desde el cuidado de la salud, hasta la realidad virtual. La mayoría de los sistemas implementados, se han enfocado en la detección de pose sobre imágenes a color. Sin embargo, una oportunidad se presenta en la detección sobre el dominio térmico, el cual presenta ventajas como invarianza a la iluminación y preservación de la privacidad de las personas.
Se propone la aplicación del modelo CenterNet a la detección de pose sobre imágenes térmicas. Este modelo posee una innovadora forma de detección, lo cual lo ha llevado a resultados estado del arte en competencias como COCO. Los objetos y personas se detectan a partir de sus puntos centrales, realizando regresión hacia otras propiedades como los keypoints.
CenterNet se pre-entrena sobre la base de datos COCO, cambiando entre las arquitecturas de extracción de características DLA, Hourglass y HRNet. Se entrenan variantes sobre las imágenes originales a color y en escala de gris. Estos modelos, al ser evaluados en un conjunto de 200 imágenes térmicas, alcanzan un máximo de 54,6% de precisión (AP) y 64% de recall (AR), por el modelo Hourglass. El pre-entrenamiento sobre imágenes en gris ha demostrado ser ligeramente mejor que con imágenes a color. Una variante, entrenada sobre imágenes de COCO traducidas a térmicas con el sistema ThermalGAN, ha probado ser fútil.
El desempeño de los modelos es mejorado realizando un finetuning sobre 600 imágenes térmicas. Se exploran diferentes combinaciones de batch size y learning rate, distintos learning rate schedules y el congelamiento de capas. La evaluación muestra que parámetros de entrenamiento cercanos a los referidos en la literatura, son óptimos, y que el congelamiento del primer módulo de convolución de los backbone incrementa marginalmente la precisión de los modelos. Los mejores modelos, basados en CenterNet DLA y Hourglass, alcanzan una precisión notable del 77% y 80%, respectivamente. La diferencia se identifica como un trade-off entre precisión y tiempo de inferencia, donde el primero detecta a 22 FPS, mientras que el último solo a 10 FPS. También, se identifica una deficiencia en la detección de keypoints de la cara.
Los mejores modelos CenterNet, se comparan a otros sistemas de detección de pose humana populares, como Simple Baselines y PoseAE. En conclusión, Simple Baselines resulta ser el más preciso, con un 77% de AP y 81% de AR, a expensas de un largo tiempo de inferencia para imágenes con muchas personas. CenterNet, en cambio, se desempeña con alta precisión y tiempos de inferencia razonables. La elección del modelo depende de las necesidades que presente el usuario en cuanto a precisión y rapidez de detección.
General note
Memoria para optar al título de Ingeniero Civil Eléctrico
Identifier
URI: https://repositorio.uchile.cl/handle/2250/180764
Collections
The following license files are associated with this item: