Abstract | dc.description.abstract | Los modelos basados en IAs han demostrado ser una herramienta poderosa en el ´ambito
del control de calidad en diversas industrias. Aun as´ı, existen entornos m´as complejos a
los que se ven enfrentados estos modelos, como lo puede ser el control de calidad sobre
alimentos, en espec´ıfico, a la forma en que se presentan los alimentos a estos modelos. Esto
´ultimo puede ser un problema debido a varios factores como, por ejemplo, la variabilidad en
la apariencia, cambios en la iluminaci´on, superposici´on de ingredientes, oclusi´on, o texturas
y colores similares.
En el presente trabajo, se busca implementar una metodolog´ıa que permita detectar y
estimar la porci´on de ingredientes granulares asociados a im´agenes obtenidas desde las cocinas
de PizzaHut, mediante c´amaras instaladas por la start up chilena Kwali, start up bajo la cual
se realiza este trabajo.
Se destaca la variedad de modelos utilizados a lo largo de esta experiencia, comenzando
por modelos de detecci´on de objetos, tanto One-Stage (Yolov6 ), como Two-Stage (Faster RCNN),
pasando por un modelo de segmentaci´on prompteable denominado SAM, y finalizando
con modelos de estimaci´on de profundidad monoculares basados en Transformers, nombrados
MIM y BinsFormers.
Luego de entrenar y evaluar, se tiene que el par (Yolov6, BinsFormers) obtiene el mejor
desempe˜no en los datasets respectivos, sin embargo, se decide utilizar a Faster R-CNN por
sobre Yolov6, debido en gran medida a que Faster R-CNN se encuentra arraigado en los
pipelines de la empresa, sumado a que no existe una gran diferencia entre las salidas de estos
2 modelos. Como principal resultado se tiene que todos modelos poseen una alta capacidad
de detectar ingredientes con una forma definida, tama˜no promedio, y con un color que resalte
en las im´agenes, mientras que aquellos que no presentan estas cualidades, poseen bajo ´ındice
de detecci´on y estimaci´on.
Finalmente, se crea un algoritmo que detecta y estima la porci´on de diversos ingredientes
presentes dentro de una imagen, obteniendo resultados prometedores, a pesar de lo simple de
la metodolog´ıa utilizada. Dicho algoritmo posee un amplio margen de mejora, si consideramos
un aumento en los datos utilizados, mapas de profundidad m´as detallados, ampliaci´on de
elementos a detectar, y futuros modelos de detecci´on SOTA. | es_ES |