Reconocimiento de montos manuscritos en cheques a través de modelos de detección de objetos basados en redes convolucionales
Tesis
Open/ Download
Publication date
2019Metadata
Show full item record
Cómo citar
Saavedra Rondo, José
Cómo citar
Reconocimiento de montos manuscritos en cheques a través de modelos de detección de objetos basados en redes convolucionales
Author
Professor Advisor
Abstract
El problema de reconocimiento de texto manuscrito en imágenes es muy importante en cuanto
a aplicaciones en el área de visión por computadora. Un problema más acotado, pero no menos
importante, es el de reconocimiento de secuencias de dígitos manuscritos de largo variable en
imágenes.
El presente trabajo consiste en investigar un nuevo enfoque para resolver el problema de
reconocimiento de secuencias de dígitos manuscritos en imágenes. Se plantea dicho problema
como uno de detección de objetos en que los dígitos corresponden a los objetos a detectar. Los
algoritmos utilizados corresponden al estado del arte en detección de objetos siendo estos:
RetinaNet (2017), YOLOv3 (2018) y FCOS (2019).
La hipótesis de este trabajo es que un enfoque basado en detección de objetos logra tasas
de reconocimiento superiores a los enfoques actuales basados en modelamiento secuencial, en
particular, aquellos basados en la CTC.
Los resultados obtenidos confirman la hipótesis de que un enfoque basado en detección
de objeto es capaz de superar al estado del arte cuyo mejor resultado se basa en una arquitectura
de tipo CNN-LSTM-CTC la cual alcanza tasas de reconocimiento de 89.75% y
91.14% en los datasets ORAND-CAR-A y ORAND-CAR-B, respectivamente. Con el nuevo
enfoque propuesto basado en detección de objetos, en particular YOLO, se alcanzan tasas de
reconocimiento superiores al 96 %, específicamente 96.78% y 96.45% en ORAND-CAR-A
y ORAND-CAR-B, respectivamente. Estos excelentes resultados marcan sin duda un nuevo
precedente en el problema de reconocimiento de secuencias de dígitos manuscritos en
imágenes.
Por último, en cuanto a las aplicaciones del modelo entrenado, se logra una mejora significativa
con respecto al modelo previo utilizado en ORAND S.A. (empresa interesada en este
trabajo y que facilitó los datasets). Mientras el modelo antiguo, que hacía uso de técnicas
tradicionales de procesamiento de imágenes, alcanzaba un desempeño cercano al 80% en los
datasets ORAND-CAR-A y ORAND-CAR-B, y con un tiempo de procesamiento de 1FPS,
el actual modelo alcanza tasas superiores al 96% y tiempos cercanos a los 100FPS.
General note
Memoria para optar al título de Ingeniero Civil en Computación Memoria para optar al título de Ingeniero Civil Eléctrico
Identifier
URI: https://repositorio.uchile.cl/handle/2250/174542
Collections
The following license files are associated with this item: