En los últimos años se han observado avances significativos en las tareas de recuperación, clasificación y segmentación de modelos 3D. Las representaciones tradicionales como las nubes de puntos y las mallas poligonales si bien son adecuadas para la renderización, presentan desafíos para las tareas mencionadas debido a su complejidad y redundancia. Esta tesis se enfoca en varias tecnicas para la representación de los modelos 3D asi como diferentes técnicas de recuperación de los mismos, centrándose en la recuperación intermodal utilizando image views.
Comenzamos nuestra investigación utilizando técnicas de representación de nivel medio, como bag-of-words combinado con features tradicionales como por ejemplo filtros de Gabor. Luego, avanzamos hacia métodos de deep learning para manejar modelos 3D representados como conjuntos de image views. Proponemos una arquitectura novedosa, que combina redes neuronales convolucionales (CNN) y autoencoders para calcular embeddings de los modelos 3D a partir de image views, con el objetivo de capturar información semántica para la evaluación de similitudes.
Ampliamos el trabajo a la recuperación de modelos 3D basados en imágenes, revelando desafíos para encontrar un espacio conjunto para embeddings de imágenes y modelos 3D. Finalmente proponemos una arquitectura end-to-end para aprender a comparar imágenes y modelos 3D directamente.
Los objetivos de la tesis incluyen el desarrollo de métodos basados en redes neuronales para la recuperación de formas 3D y la recuperación de formas 3D intermodal, evaluación comparativa, establecimiento de métricas, comparación con métodos tradicionales y pruebas en escenarios reales.
es_ES
Abstract
dc.description.abstract
Significant advancements have been witnessed in 3D model retrieval, classification, and segmentation tasks in recent years. While suitable for rendering, traditional representations
like point clouds and polygon meshes present challenges for the tasks above due to their
complexity and redundancy. This thesis delves into various 3D model representations and
retrieval techniques, focusing on cross-modal retrieval using image views.
We begin our research using mid-level representation techniques such as bag of words
combined with hand-engineered features. Then, we progress towards deep learning methods
to handle 3D models represented as sets of image views. We propose a novel architecture,
combining Convolutional Neural Networks (CNNs) and Autoencoders to compute 3D model
embeddings from image views, aiming to capture semantic information for similarity assessment.
We extend the work to image-based 3D model retrieval, revealing challenges in finding a
joint space for image and 3D model embeddings. Finally, we propose an end-to-end architecture to learn how to directly compare images and 3D shapes.
The thesis objectives include developing neural network-based methods for 3D shape retrieval and cross-modal 3D shape retrieval, benchmarking, metric establishment, comparison
with traditional methods, and real scenario testing.
es_ES
Lenguage
dc.language.iso
en
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States