Desarrollo de una medida de similitud entre delitos
Professor Advisor
Abstract
En el presente trabajo de tesis se plantea una metodología para tratar el texto del relato
del delito, extraer información a partir de este texto y generar una caracterización mediante atributos, pasando de un formato no estructurado a una representación estructurada del
delito, esto complementario a información descriptiva del registro policial. Se propone el procesamiento de texto mediante modelos de lenguaje masivos o LLM (por su sigla en inglés,
large language models) por su capacidad de procesamiento y nivel de precisión al momento
de trabajar con texto. Se busca enriquecer la base de delitos con información que no se aprovecha desde el texto del relato, generando un consolidado más robusto que permite sustentar
análisis, desarrollos e iniciativas, como una medida de similitud entre delitos. Se diseñó partir
de este punto una medida de similitud entre delitos tomando como base la caracterización de
los mismos, la cual considera datos en distintos formatos y por ello incorpora distintos enfoques para tratar los tipos de variables trabajadas: variables binarias, variables categóricas,
variables numéricas, y texto, para cada una se define un método para obtener una medida de similitud estandarizada como un valor real en el intervalo [0,1], incorporando el uso
de matrices, representaciones vectoriales de palabras y texto, estandarización y similitud de
vectores, entre otras, estas distintas medidas de similitud se combinan en una única medida
de similitud, asignando distintos pesos a cada dimensión en función de los objetivos que se
buscan. A partir de esto se pueden establecer relaciones entre los distintos delitos según el
nivel de cercanía o similitud que comparten, y sustentar el estudio, análisis y comparativa
en un contexto de análisis criminal. La metodología propuesta de manera teórica se aplica
sobre un caso de estudio del Ministerio Público utilizando datos reales de delitos, abordando
en primera instancia la extracción y caracterización de los delitos a partir del texto del relato
e información del registro de los mismos, validando y estandarizando el resultado utilizado
como insumo para la fase siguiente. En base a esto se calculan las distintas medidas de similitud para luego generar un valor consolidado, resultados sobre los cuales se realizan distintos
análisis y validaciones. Con ello se logra evaluar el flujo y validar la viabilidad de su aplicación
como una herramienta de apoyo en el análisis y combate delictivo.
xmlui.dri2xhtml.METS-1.0.item-notadetesis.item
Tesis para optar al grado de Magíster en Ciencia de Datos Memoria para optar al título de Ingeniero Civil Industrial
Collections
The following license files are associated with this item: