Mejora de la generalización de clasificadores convolucionales ya entrenados, usando feedback visual de usuario

Dentro de los métodos de Machine Learning, las redes neuronales convolucionales han logrado sorprendentes resultados en los últimos años. Sin embargo, es difícil identificar cómo funcionan y cómo corregir errores puntuales en modelos ya entrenados. El presente trabajo busca corregir modelos ya entrenados sin agregar más datos o cambiar la arquitectura subyacente. Esto es posible a través de establecer una comunicación entre el modelo y el usuario experto que permita mejorar el desempeño del modelo. Por un lado se generan visualizaciones de lo que el modelo considera relevante en la imagen de entrada, y por el otro, el usuario puede indicar si estas áreas son o no relevantes. Con este contraste se espera agregar información, aumentando la generalización del modelo, lo que se ve traducido en mejoras en la clasificación. Para entregar tal información al modelo se estudian dos métodos. El primer método corresponde a editar las áreas seleccionadas con modelos generativos de imágenes (image inpainting), de forma de rellenar las áreas seleccionadas con patrones distintos. El segundo método corresponde a plantear funciones de pérdida, las cuales castigan al modelo cuando este genere altas activaciones en las áreas consideradas como irrelevantes. Como resultado de la evaluación del trabajo, se observa que los métodos de reemplazo resultan no ser los indicados, ya que tienen problemas para ajustarse a las áreas irrelevantes dado la arquitectura requerida por el algoritmo de visualización CAM (Class Activation Mapping). Por tal motivo, se plantea una segunda propuesta basada en adaptar una función de pérdida. Aquí es necesario considerar las diversas variables de forma de balancear el objetivo de clasificación con el objetivo de eliminar activaciones irrelevantes. Tal proceso concluye con la creación de PASA (Pérdida por Activación Selectiva Ajustada). Se estudia el comportamiento del modelo en diversos conjuntos de datos. Los resultados indican que el método PASA logra cambiar las activaciones de forma satisfactoria, a la vez que corrige clasificaciones en las imágenes seleccionadas. Lamentablemente, la propuesta no logra producir cambios significativos en métricas de clasificación en el conjunto de prueba. Al analizar las suposiciones iniciales se determina que el modelo estudiado si bien presenta características irrelevantes, estas no son del tipo que genera confusión en el conjunto de prueba. Lo que existe es una gran redundancia de características. También se logró determinar que es posible encontrar las características irrelevantes de forma visual, pero no a través de la propuesta CAM, sino a través de observar directamente las activaciones. Por otro lado, si se conocen las características irrelevantes a priori, el método propuesto puede generar efectos positivos como se demuestra en el dataset X-RAY, sobre el que se logra una mejora significativa en las métricas de clasificación.

General note

Tesis para optar al grado de Magíster en Ciencias, Mención Computación

Memoria para optar al título de Ingeniero Civil en Computación

Identifier

URI: https://repositorio.uchile.cl/handle/2250/174781

Collections