Modelo de clasificación de compras públicas en estándar UNCCS
Professor Advisor
dc.contributor.advisor
Bustos Cárdenas, Benjamín
Author
dc.contributor.author
Gallardo Rodríguez, Hugo Patricio
Associate professor
dc.contributor.other
Abeliuk Kimelman, Andrés
Associate professor
dc.contributor.other
Sipirán Mendoza, Iván
Associate professor
dc.contributor.other
Alfaro Arancibia, Rodrigo
Admission date
dc.date.accessioned
2024-05-22T15:25:02Z
Available date
dc.date.available
2024-05-22T15:25:02Z
Publication date
dc.date.issued
2023
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/198679
Abstract
dc.description.abstract
La transparencia en las compras públicas en Chile permite a la ciudadanía conocer cómo
se gastan los recursos públicos, cuál es su nivel de e ciencia y permitir su rendición de
cuentas hacia la sociedad. Para fomentar lo anterior, el Observatorio del Gasto Fiscal (OGF)
realiza distintos análisis sobre los datos públicos provenientes de la Dirección de Compras y
Contratación Pública del estado (DCCP). Sin embargo, cuentan con diversos problemas de
calidad, reduciendo la capacidad de un correcto estudio sobre éstos. En especí co, el trabajo
de esta tesis aborda el problema de la concordancia que existe entre la asignación del código
de producto, y su descripción por parte de los compradores en los datos provenientes de la
DCCP.
A través de un análisis inicial de 1.200 productos de Tecnologías de la Información provenientes
de municipalidades, se desprende que un 64% de éstos no tienen una correcta concordancia
entre el etiquetado y su descripción de texto. Teniendo en cuenta la gran cantidad
de productos transados mensualmente, resulta necesario el generar una solución automática
para la clasi cación de éstos.
El marco teórico nos presenta como solución la utilización de modelos de clasi cación,
tanto multiclase como binario. Para poder ser aplicados correctamente, se generó un proceso
que aplica técnicas de preprocesamiento de texto. Luego se buscó el mejor modelo entre
Máquina de Soporte Vectorial (SVM), Árboles Aleatorios (RF), Clasi cador Bayesiano y
K-vecinos más cercanos.
Inicialmente se aplicó un modelo SVM multiclase para identi car la clase de un producto
basado en su descripción. Sin embargo, no fue capaz de generalizar correctamente al llegando
solo a un 49% de promedio F1 macro. Agregando un post procesamiento incluyendo una
clase desconocida, tampoco se llegó a un resultado satisfactorio.
Dados los problemas del modelo anterior, se aplicó un modelo RF binario identi cando
la concordancia entre la etiqueta y descripción del producto. Este presentó un promedio F1
macro de 85% dentro de los datos de evaluación, concluyendo que este es un modelo viable
para utilizar en este problema.
El modelo binario llevado al servicio web gratuito de HFS tuvo un resultado satisfactorio,
permitiendo correctamente a usuarios externos la utilización del modelo sobre nuevos
conjuntos de datos. En especí co para OGF, el prototipo les permitirá generar modelos de
clasi cación para futuros análisis relacionados a las CCPP, enfocado en distintos sectores.
es_ES
Patrocinador
dc.description.sponsorship
Becas ANID
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States