Self-supervised learning on 3D representations
Author
Professor Advisor
Abstract
La creciente accesibilidad de los datos de nubes de puntos 3D ha acelerado el desarrollo de
métodos de aprendizaje profundo para su análisis y procesamiento. Sin embargo, la eficacia
de las redes neuronales en este campo se ve a menudo obstaculizada por la necesidad de
amplios conjuntos de datos, cuya creación es costosa y laboriosa. Esta tesis explora el marco
de las redes siamesas como estrategias de preentrenamiento para redes neuronales en nubes
de puntos 3D. Aunque estos métodos han demostrado resultados en el preentrenamiento de
redes neuronales 2D, su estudio en el contexto de datos 3D es relativamente reciente.
Nuestra investigación propone la aplicación de técnicas de entrenamiento basadas en redes
siamesas, como BYOL o SIMSIAM, a los codificadores de las principales redes neuronales
diseñadas para el procesamiento de nubes de puntos 3D. Estos regímenes de preentrenamiento
permiten a los codificadores generar representaciones de datos sin depender de etiquetas, lo
que puede mejorar el rendimiento de la red en tareas posteriores como la clasificación, la
segmentación y el reconocimiento de objetos en entornos urbanos, mejorando así la fiabilidad
de los vehículos autónomos en escenarios complejos.
También se experimentó sobre un enfoque alternativo: sustituir el conjunto de datos de
preentrenamiento convencional del estado del arte por SimpleShape, un conjunto de datos
creado artificialmente. Este enfoque se inspira en el concepto de aprendizaje supervisado
basado en fórmulas. Nuestro estudio pretende investigar la eficacia de este enfoque sobre
nubes de puntos 3D. Los resultados indican que incluso una versión simplificada de este
conjunto de datos puede producir resultados competitivos frente a las pruebas de referencia
actuales, a pesar de no estar diseñado específicamente para el preentrenamiento de nubes de
puntos 3D.
La eficacia de estas representaciones adquiridas se evaluó utilizando métricas de evaluación estándar en el campo. La precisión de la clasificación obtenida en el conjunto de datos
ScanObjectNN en su variante OBJ-BG fue del 94,15%. En la prueba comparativa de aprendizaje de few-shot en Model-Net40 5w10s, la precisión fue del 97,1%, y en ModelNet40 5w20s,
del 98,8%. Con estos resultados, los marcos de trabajo propuestos superan los resultados del
estado del arte en estas pruebas comparativas. El código desarrollado e implementado a
efectos de esta investigación se encuentra disponible en
https://github.com/LucasOyarzun/Point_Simsiam. The increasing accessibility of 3D point cloud data has accelerated the development of deep learning methods for its analysis and processing. However, neural networks’ effectiveness in this field is often hindered by the need for extensive labeled datasets, which is both costly and labor-intensive. This thesis explores Siamese network frameworks as pre-training strategies for neural networks on 3D point clouds. While these methods have demonstrated exceptional results in 2D neural network pre-training, their study in the context of 3D point clouds is relatively recent.
Our research proposes the application of training techniques based on Siamese networks, such as BYOL or SIMSIAM, to the encoders of leading neural networks designed for 3D point cloud processing. These pre-training regimes enable the encoders to generate data representations adeptly without relying on labels, potentially bolstering network performance in downstream tasks like classification, segmentation, and object recognition in urban environments, thereby enhancing the reliability of autonomous vehicles in complex scenarios.
An alternative approach was experimented with: substituting the conventional pre-training dataset in current state-of-the-art models with SimpleShape, an artificially created dataset. This approach is inspired by the concept of formula-driven supervised learning. Our study aims to investigate the effectiveness of this approach. The results indicate that even a simplified version of this dataset can produce competitive results against current benchmarks, despite not being specifically tailored for 3D point cloud pre-training.
The effectiveness of these acquired representations was evaluated using well-established evaluation metrics. The classification accuracy achieved on the ScanObjectNN dataset under its OBJ-BG variant was 94.15%. On the few-shot learning benchmark on ModelNet40 5w10s, the accuracy was 97.1%, and on ModelNet40 5w20s, it was 98.8%. With these results, the proposed frameworks surpass the state-of-the-art results in these benchmarks. The code developed and implemented for the purpose of this research is available at https://github.com/LucasOyarzun/Point_Simsiam.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencias, Mención Computación Memoria para optar al título de Ingeniero Civil en Computación
Patrocinador
ANID FONDECYT GRANT 11220211
Collections
The following license files are associated with this item: