Generación de mapas de profundidad a partir de imágenes estéreo utilizando registro no rígido
Tesis
Open/ Download
Publication date
2012Metadata
Show full item record
Cómo citar
Asahi Kodama, Takeshi Eduardo
Cómo citar
Generación de mapas de profundidad a partir de imágenes estéreo utilizando registro no rígido
Professor Advisor
Abstract
El presente trabajo trata sobre la aplicación de registro no rígido al caso de imágenes estéreo con el fin de generar un mapa de profundidad. En particular, la correspondencia entre las dos imágenes se describe como solución de una ecuación diferencial cuyos parámetros son determinados a través de un problema de optimización.
El proceso completo requiere etapas previas de calibración, rectificación y preparación de las imágenes, las que se implementan sobre la librería OpenCV. Se incluyen además los conceptos teóricos que se encuentran detrás de cada subproceso.
Una vez que las imágenes son rectificadas, se procesan fila por fila, adquiriéndose un enfoque unidimensional. El registro no rígido se efectúa mediante el cálculo de una transformación espacial difeomórfica $\phi$, capaz de deformar de manera no lineal una de las imágenes para que iguale a la otra. En particular, $\phi$ es la solución de la ecuación diferencial ordinaria no lineal $d_{t}\phi\left(x,t\right)=v\left(\phi(x,t)\right)$, donde se desconoce el campo vectorial $v$, el cual se determina utilizando el método del gradiente para minimizar un funcional con componentes de similitud y regularización. Se adopta el esquema Forward Euler Method, es decir, primero se calcula $v$, y luego $\phi$, utilizando la relación $\phi\left(x,t+dt\right)=\phi\left(x,t\right)+v\left(\phi\left(x,t\right)\right)dt$.
Tanto las imágenes como el campo vectorial son tratados de forma continua utilizando B-splines unidimensionales. La elección radica en sus características interpoladoras y de soporte compacto, dado que solo se esperan deformaciones locales. De esta forma, los parámetros a determinar en el problema son los coeficientes $a\left[i\right]$, que definen el campo $v\left(x\right)=\sum_{i}a\left[i\right]\beta^{n}\left(x-i\right)$.
Una vez obtenido el difeomorfismo, es directo el cálculo del mapa de disparidad, pues se cumple que $d=\phi-x$. Y posteriormente, al añadir los parámetros de la cámara estéreo, es posible generar el mapa de profundidad con la ecuación $Z=\frac{fT}{d}$ (en el caso de alineación binocular).
La estrategia de solución demuestra ser útil en casos con objetos de superficies suaves y sin necesidad de pronunciados gradientes de intensidad del nivel de gris, destacando sobre alternativas más tradicionales, que se enfocan básicamente en correspondencias de puntos característicos. El caso de imágenes generales, con combinaciones de zonas de gradientes suaves y pronunciados, no es resuelto completamente, restando abordar problemas de oclusiones, diferencias en los bordes de las imágenes, tiempo de cómputo, y exceso de suavidad en la función de deformación. El trabajo constituye un primer acercamiento a un nuevo enfoque continuo, por lo que se proponen variantes que puedan generar mejores resultados.
General note
Ingeniero Civil Electricista
Identifier
URI: https://repositorio.uchile.cl/handle/2250/111904
Collections