Diseño y desarrollo de un sistema para la asociación automática de delitos basados en modelos similitud semántica textual
Tesis
![Thumbnail](/themes/Mirage2/images/cubierta.jpg)
Publication date
2018Metadata
Show full item record
Cómo citar
Weber Haas, Richard
Cómo citar
Diseño y desarrollo de un sistema para la asociación automática de delitos basados en modelos similitud semántica textual
Author
Professor Advisor
Abstract
La Fiscalía de Chile o Ministerio Público es una institución autónoma, cuya función es dirigir,
a través de sus fiscales y en forma exclusiva, la investigación de los hechos que pueden ser
constitutivos de delitos. El problema es que sólo el año 2017 el Ministerio Público recibió más
de 1.3 millones de denuncias, las cuales deben deben ser investigadas con un acotado cuerpo
de fiscales y analistas, lo que se traduce en que para dar respuesta a esta cifra y bajo el
supuesto de una homogeneidad en la carga de trabajo, cada fiscal debería atender, investigar
y si es posible llevar a juicio 7 causas diarias.
En el estado del arte existen trabajos que vinculas delitos a través de modelos de clustering
y clasificación obteniendo buenos resultados, no obstante esto supone la existencia de bases
de datos con campos definidos y bien pobladas, lo cuál difiere del caso en Chile dada la forma
en la que se recogen las denuncias. En un intento por contribuir al problema del Ministerio
Público, es que se ha desarrollado un modelo para la vinculación automática de delitos basado
en métricas de similitud semántica textual derivada de modelos de aprendizaje de máquina.
Para esto, se ha diseñado un proceso que comienza por la recuperación de documentos a
través de queries mediante Latent Semantic Indexing (LSI), para luego computar y analizar
la asociación de causas recuperadas a través de modelos de similitud semántica textual, en
este caso Doc2Vec. Finalmente, y en el caso de que el resultado brinde asociaciones de causas
muy numerosas, se propone su descomposición a través de modelos de tópicos, en este caso
y por simplicidad, Latent Dirichlet Allocation (LDA).
En primer lugar, en un conjunto de 3.803 causas se realizó el ejercicio de comparar agrupaciones
que establecidas por nuestro sistema con causas que el personal del Ministerio Público
se encontraba investigando. El resultado, es que a partir de una consulta se encontraron 7
agrupaciones, que sumaban 66 causas en total y dentro de las cuales se encontraban 4 de
los 16 delitos que el Ministerio Público investigaba. Luego, en el mismo conjunto de causas
se analizó que causas pudiesen estar relacionadas con las que se investigaban. En 56 causas
analizadas, 9 fueron validadas como delitos con un modo de comisión similar a los que se
investigaban, lo que en términos de Precision corresponde a un 19 %.
Se ha desarrollado una metodología que ha demostrado funcionar tanto para la agrupación
de denuncias a partir de términos de búsqueda cómo para la asociación de nuevas causas a
delitos en investigación, en donde la elección de los modelos ha resultado ser efectiva, contribuyendo al análisis de un gran volumen de denuncias de forma automática Los resultados
son prometedores dada la complejidad del problema y se proponen nuevos desarrollos para
complementar esa incipiente versión del sistema para asociación de delitos, donde además
cabe destacar que no existen registros en la literatura de trabajos de vinculación criminal
basado exclusivamente en datos no estructurados.
General note
Memoria para optar al título de Ingeniero Civil Industrial
Identifier
URI: https://repositorio.uchile.cl/handle/2250/169878
Collections