Segmentación semántica y reconocimiento de lugares usando características CNN pre-entrenadas
Professor Advisor
dc.contributor.advisor
Ruiz del Solar, Javier
Author
dc.contributor.author
Orellana Rueda, Pedro Ignacio
Associate professor
dc.contributor.other
Tobar Henríquez, Felipe
Associate professor
dc.contributor.other
Verschae Tannenbaum, Rodrigo
Admission date
dc.date.accessioned
2020-03-25T00:05:17Z
Available date
dc.date.available
2020-03-25T00:05:17Z
Publication date
dc.date.issued
2019
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/173733
General note
dc.description
Tesis para optar al grado de Magíster en Ciencias de la Ingeniería, Mención Eléctrica
es_ES
Abstract
dc.description.abstract
En el presente trabajo de tesis se propone e implementa un sistema de segmentación semántica y
reconocimiento de interiores domésticos utilizando características pre-entrenadas extraídas de
una red neural convolucional profunda. En particular este tipo de enfoque ha entregado buenos
resultados en el problema de clasificación de imágenes, aunque no ha sido muy explotado en el
problema de la segmentación semántica.
El problema de segmentación semántica es uno de los más desafiantes en el campo de la visión
por computador, dada la complejidad técnica del problema en sí, y a la dificultad agregada de
generar una base de datos etiquetada para poder entrenar los modelos. Debido a esto, en algunas
de bases de datos pequeñas, como NYU Depth v1, métodos basados en características “hand
crafted” aún siguen superando a enfoques basados en aprendizaje profundo “end-to-end”. Es por
este motivo que este trabajo de tesis busca explorar enfoques que permitan transferir el
conocimiento aprendido por una red profunda a un problema con otra base de datos diferente.
Esto permitirá entrenar modelos de segmentación semántica en bases de datos muy pequeñas
como para obtener buenos resultados utilizando aprendizaje profundo.
En particular en este trabajo se extraen características de las últimas capas de una red Segnet
entrenada en la base de datos de interiores domésticos SUN RGBD. El método propuesto para
trabajar con estas características estaba basado en los trabajos “hand crafted” que han entregado
mejores resultados a la fecha. Este método está compuesto por varias etapas, la primera es un
algoritmo que divide en la imagen en múltiples zonas, a partir de la información de un detector de
contornos. Luego cada una de estas zonas pasa a ser un segmento desde donde se calcula un
vector de características a partir de la información extraída de la las últimas capas de Segnet.
Finalmente existe una etapa de clasificación, a nivel de segmentos, compuesta por un SVM. De
forma paralela se construye un reconocedor de lugares, utilizando también características
extraídas de una red profunda. La idea de este reconocedor de lugares es que aporte con
información de contexto de alto nivel al sistema de segmentación semántica.
Las contribuciones de este trabajo de tesis son específicamente tres. La primera de ellas es el uso
transferencia de conocimiento de una red profunda aplicado al problema de segmentación
semántico. La metodología utilizada para extraer las características es novedosa, pues hasta la
realización de este trabajo no se habían utilizado enfoques como el propuesto para abordar el
problema de segmentación semántica. Este enfoque es de especial utilidad en bases de datos muy
pequeñas como para aplicar aprendizaje profundo end-to-end o fine-tuning. La segunda
contribución es el uso de la información de un detector de contornos en conjunto con las
características extraídas de una red profunda. Las características generadas por una red profunda
tienen gran poder de separabilidad, incluso para realizar clasificación a nivel de pixeles de forma
efectiva. Sin embargo en la frontera de dos objetos es donde se comente más errores de
clasificación. El detector de contornos contribuye a disminuir los errores en las fronteras entre
objetos. La última contribución de este trabajo de tesis es el uso de la información de un
clasificador de lugares, información de contexto de alto nivel, para mejorar el resultado de la
segmentación semántica. En conjunto estas tres contribuciones permitente mejorar los resultados
a la fecha en la base de datos de segmentación semántica NYU Depth v1.