Multiple extended object tracking with the 3D-instance segmentation algorithm
Tesis
Access note
Acceso abierto
Publication date
2024Metadata
Show full item record
Cómo citar
Adams, Martín
Cómo citar
Multiple extended object tracking with the 3D-instance segmentation algorithm
Author
Professor Advisor
Abstract
Los algoritmos clásicos de seguimiento de múltiples objetos (MOT) asumen la generación de mediciones únicas por objetivo, pero la evolución hacia el seguimiento de objetos extendidos (MEOT) asume que un objetivo pueda generar múltiples mediciones. El MEOT enfrenta desafíos en entornos congestionados, donde mediciones cercanas pueden interpretarse erróneamente.
Presentamos el algoritmo 3D-INSEG (Segmentación de Instancias en 3D) usando cámaras estéreo y redes neuronales (NNs) para segmentación y profundidad en 3D. La visión estéreo permite la obtención de profundidad, mediante la cual la segmentación 2D producida mediante NNs puede ser llevada a coordenadas en 3D, de esta forma cada píxel perteneciente al objetivo genera una medición 3D.
Validamos con datos LIDAR Velodyne, enfocándonos en el seguimiento humano. Aplicamos 3D-INSEG a secuencias estéreo, extrayendo información 3D para cada objeto detectado. Las mediciones se procesan con un filtro PMBM de objetivo extendido con implementación GGIW.
El MEOT se beneficia de los datos generados mediante el algoritmo 3D-INSEG, demostrado comparativamente con datos LIDAR Velodyne. Este trabajo mejora el seguimiento en entornos desafiantes con segmentación y estimación de profundidad en 3D. Classical multiple object tracking (MOT) assumes each target gives one measurement. Newer
work considers extended object tracking (MEOT), where one target can generate multiple
measurements. Good measurements are key for accurate tracking.
We propose 3D-INSEG (3D-INstance SEGmentation) using stereo cameras and neural
networks for depth and 3D segmentation. Stereo vision helps with depth info, making 2D
segmentation from CNNs better. We check this against traditional clustering with Velodyne
LIDAR data.
We focus on tracking individual humans, estimating depth with RAFT-stereo, and using
Mask-RCNN for 2D segmentation. We test MEOT with simulated and real laser data in
open spaces, seeing limits in crowded or tight spots where close measurements can be wrong.
Then, we use 3D-INSEG for MEOT with stereo image sequences, getting 3D info for each
target. We use an extended target PMBM filter with a GGIW setup to process measurements.
MEOT does better with 3D-INSEG data, shown by comparing with Velodyne LiDAR-based
MEOT in the same spots. This improves tracking accuracy in tough spots using segmentation
and depth.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias de la Ingeniería, Mención Eléctrica Memoria para optar al título de Ingeniero Civil Eléctrico
Patrocinador
Este trabajo ha sido parcialmente financiado por ANID-Subdirección de Capital
Humano/Magíster Nacional/2023 - 22230898.
Identifier
URI: https://repositorio.uchile.cl/handle/2250/202865
Collections
The following license files are associated with this item: