Reconocimiento de montos manuscritos en cheques a través de modelos de detección de objetos basados en redes convolucionales
Professor Advisor
dc.contributor.advisor
Saavedra Rondo, José
Author
dc.contributor.author
Saji Santander, David Alberto
Associate professor
dc.contributor.other
Schnell Dresel, Alfredo
Associate professor
dc.contributor.other
Bergel, Alexandre
Associate professor
dc.contributor.other
Carrasco Acosta, Adolfo
Admission date
dc.date.accessioned
2020-05-08T02:08:51Z
Available date
dc.date.available
2020-05-08T02:08:51Z
Publication date
dc.date.issued
2019
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/174542
General note
dc.description
Memoria para optar al título de Ingeniero Civil en Computación
es_ES
General note
dc.description
Memoria para optar al título de Ingeniero Civil Eléctrico
Abstract
dc.description.abstract
El problema de reconocimiento de texto manuscrito en imágenes es muy importante en cuanto
a aplicaciones en el área de visión por computadora. Un problema más acotado, pero no menos
importante, es el de reconocimiento de secuencias de dígitos manuscritos de largo variable en
imágenes.
El presente trabajo consiste en investigar un nuevo enfoque para resolver el problema de
reconocimiento de secuencias de dígitos manuscritos en imágenes. Se plantea dicho problema
como uno de detección de objetos en que los dígitos corresponden a los objetos a detectar. Los
algoritmos utilizados corresponden al estado del arte en detección de objetos siendo estos:
RetinaNet (2017), YOLOv3 (2018) y FCOS (2019).
La hipótesis de este trabajo es que un enfoque basado en detección de objetos logra tasas
de reconocimiento superiores a los enfoques actuales basados en modelamiento secuencial, en
particular, aquellos basados en la CTC.
Los resultados obtenidos confirman la hipótesis de que un enfoque basado en detección
de objeto es capaz de superar al estado del arte cuyo mejor resultado se basa en una arquitectura
de tipo CNN-LSTM-CTC la cual alcanza tasas de reconocimiento de 89.75% y
91.14% en los datasets ORAND-CAR-A y ORAND-CAR-B, respectivamente. Con el nuevo
enfoque propuesto basado en detección de objetos, en particular YOLO, se alcanzan tasas de
reconocimiento superiores al 96 %, específicamente 96.78% y 96.45% en ORAND-CAR-A
y ORAND-CAR-B, respectivamente. Estos excelentes resultados marcan sin duda un nuevo
precedente en el problema de reconocimiento de secuencias de dígitos manuscritos en
imágenes.
Por último, en cuanto a las aplicaciones del modelo entrenado, se logra una mejora significativa
con respecto al modelo previo utilizado en ORAND S.A. (empresa interesada en este
trabajo y que facilitó los datasets). Mientras el modelo antiguo, que hacía uso de técnicas
tradicionales de procesamiento de imágenes, alcanzaba un desempeño cercano al 80% en los
datasets ORAND-CAR-A y ORAND-CAR-B, y con un tiempo de procesamiento de 1FPS,
el actual modelo alcanza tasas superiores al 96% y tiempos cercanos a los 100FPS.