Multiple extended object tracking with the 3D-instance segmentation algorithm
Professor Advisor
dc.contributor.advisor
Adams, Martín
Author
dc.contributor.author
Fierro Flores, Nicolás Ignacio
Associate professor
dc.contributor.other
Pérez Flores, Claudio
Associate professor
dc.contributor.other
Torres Torriti, Miguel
Admission date
dc.date.accessioned
2025-01-15T21:18:25Z
Available date
dc.date.available
2025-01-15T21:18:25Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/202865
Abstract
dc.description.abstract
Los algoritmos clásicos de seguimiento de múltiples objetos (MOT) asumen la generación de mediciones únicas por objetivo, pero la evolución hacia el seguimiento de objetos extendidos (MEOT) asume que un objetivo pueda generar múltiples mediciones. El MEOT enfrenta desafíos en entornos congestionados, donde mediciones cercanas pueden interpretarse erróneamente.
Presentamos el algoritmo 3D-INSEG (Segmentación de Instancias en 3D) usando cámaras estéreo y redes neuronales (NNs) para segmentación y profundidad en 3D. La visión estéreo permite la obtención de profundidad, mediante la cual la segmentación 2D producida mediante NNs puede ser llevada a coordenadas en 3D, de esta forma cada píxel perteneciente al objetivo genera una medición 3D.
Validamos con datos LIDAR Velodyne, enfocándonos en el seguimiento humano. Aplicamos 3D-INSEG a secuencias estéreo, extrayendo información 3D para cada objeto detectado. Las mediciones se procesan con un filtro PMBM de objetivo extendido con implementación GGIW.
El MEOT se beneficia de los datos generados mediante el algoritmo 3D-INSEG, demostrado comparativamente con datos LIDAR Velodyne. Este trabajo mejora el seguimiento en entornos desafiantes con segmentación y estimación de profundidad en 3D.
es_ES
Abstract
dc.description.abstract
Classical multiple object tracking (MOT) assumes each target gives one measurement. Newer
work considers extended object tracking (MEOT), where one target can generate multiple
measurements. Good measurements are key for accurate tracking.
We propose 3D-INSEG (3D-INstance SEGmentation) using stereo cameras and neural
networks for depth and 3D segmentation. Stereo vision helps with depth info, making 2D
segmentation from CNNs better. We check this against traditional clustering with Velodyne
LIDAR data.
We focus on tracking individual humans, estimating depth with RAFT-stereo, and using
Mask-RCNN for 2D segmentation. We test MEOT with simulated and real laser data in
open spaces, seeing limits in crowded or tight spots where close measurements can be wrong.
Then, we use 3D-INSEG for MEOT with stereo image sequences, getting 3D info for each
target. We use an extended target PMBM filter with a GGIW setup to process measurements.
MEOT does better with 3D-INSEG data, shown by comparing with Velodyne LiDAR-based
MEOT in the same spots. This improves tracking accuracy in tough spots using segmentation
and depth.
es_ES
Patrocinador
dc.description.sponsorship
Este trabajo ha sido parcialmente financiado por ANID-Subdirección de Capital
Humano/Magíster Nacional/2023 - 22230898.
es_ES
Lenguage
dc.language.iso
en
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States