Modelamiento semántico del entorno de un robot utilizando información RGB-D
Professor Advisor
dc.contributor.advisor
Guerrero Pérez, Pablo
Author
dc.contributor.author
Silva Pérez, Cristóbal Ignacio
Associate professor
dc.contributor.other
Agusto Alegría, Héctor
Associate professor
dc.contributor.other
Correa Pérez, Mauricio
Admission date
dc.date.accessioned
2016-11-22T20:31:03Z
Available date
dc.date.available
2016-11-22T20:31:03Z
Publication date
dc.date.issued
2016
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/141358
General note
dc.description
Ingeniero Civil Eléctrico
es_ES
Abstract
dc.description.abstract
En el ámbito de visión computacional, uno de los paradigmas más desafiantes es el de segmentación semántica. La dificultad de esta área de estudio radica en tener que identificar todo lo que se encuentra en la imagen de una escena, cosa que resulta particularmente complicada en entornos pequeños debido a la gran cantidad de oclusiones, cambios de iluminación e información ruidosa que rodean a éstos.
En este trabajo de memoria se diseñó e implementó un sistema de visión capaz de detectar y etiquetar todos los objetos en una imagen tomada dentro de un entorno pequeño y cerrado. La idea es que este sistema no sólo utilice la información del posible objeto para etiquetarlo, sino que también sea capaz de usar la información de los objetos que lo rodean para optimizar dicho etiquetado y tomar una decisión final. Esto se conoce como aprendizaje estructurado y existen varias representaciones que son capaces de lidiar con el problema. Para este caso particular se utilizaron Modelos Gráficos Probabilísticos debido a su capacidad de abstraer problemas de visión como si fueran grafos. Este enfoque entregó la libertad de poder definir las relaciones entre componentes del grafo de la manera más conveniente, permitiendo darle mayor o menor importancia a las relaciones semánticas en función de parámetros arbitrarios.
La principal contribución de este trabajo es la introducción de un Modelo Gráfico Probabilístico que puede ser fácilmente modificado para utilizar en problemas de segmentación semántica en general, cuyas implementaciones son difíciles de encontrar para un sistema de clasificación de entornos o son implementaciones muy específicas y poco modulares como para reutilizar en otro sistema.
Se realizaron diversas pruebas de desempeño para evaluar y analizar la efectividad del modelo en términos de resultados de detección, tiempo de procesamiento e influencia de parámetros sobre el etiquetado de objetos. Para ello se utilizó la base de datos NYUD de la Universidad de Nueva York que contiene imágenes RGB-D tomadas con un sensor Microsoft Kinect que fue creada con la intención de entrenar robots.
Los resultados son prometedores, entregando para todos los casos un aumento de detección con respecto al caso base, permitiendo confirmar la utilidad del modelo de inferencia utilizado. En base a esto se concluye que los modelos semánticos o contextuales son capaces de mejorar considerablemente la capacidad de detección de un sistema de visión, sin embargo el tiempo de procesamiento aún requiere trabajo para tener aplicaciones en tiempo real que es lo que se desea usualmente en el área de robótica.