Diseño y aplicación de una metodología para análisis de noticias policiales utilizando minería de textos
Professor Advisor
dc.contributor.advisor
Weber Haas, Richard
Author
dc.contributor.author
Torres Silva, Daniel Alejandro
Staff editor
dc.contributor.editor
Facultad de Ciencias Físicas y Matemáticas
Staff editor
dc.contributor.editor
Departamento de Ingeniería Industrial
Associate professor
dc.contributor.other
Ríos Pérez, Sebastián
Associate professor
dc.contributor.other
Velásquez Silva, Juan
Admission date
dc.date.accessioned
2013-11-06T17:28:37Z
Available date
dc.date.available
2013-11-06T17:28:37Z
Publication date
dc.date.issued
2013
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/114675
General note
dc.description
Ingeniero Civil Industrial
Abstract
dc.description.abstract
En esta memoria se presenta el diseño y la aplicación de una metodología, basada en técnicas de minería de textos, para el procesamiento de grandes volúmenes de noticias que permita descubrir interesantes patrones en los datos para desarrollar un acabado análisis de la cobertura de distintas temáticas policiales y estudiar su relación con las estadísticas de casos reales de delincuencia.
Las noticias policiales han sido objeto de constante análisis, cuyo interés se debe a la probable distorsión que provocaría sobre los niveles de preocupación frente al delito en la población. Los artículos noticiosos poseen valiosa información que muchas veces no es explotada, dado que requiere de un proceso de análisis manual, intensivo en tiempo y recursos. Actualmente existen herramientas tecnológicas que permiten manejar crecientes volúmenes de datos, particularmente datos no estructurados como los textos, tomando cada vez más protagonismo la minería de textos en el descubrimiento de nuevo e interesante conocimiento.
La metodología de investigación propuesta se basa en las etapas del modelo de procesos CRISP-DM, para lo cual se debe integrar la comprensión de la naturaleza del problema, la comprensión y preparación de los datos, la construcción y evaluación de los modelos y los posteriores desarrollos a partir del conocimiento generado.
La aplicación de la metodología se realiza sobre un conjunto de noticias policiales en formato RSS recopiladas a partir de cuatro medios de prensa nacionales durante el segundo semestre del año 2011. Se logran identificar siete temáticas policiales dentro de las noticias, caracterizando cada una de ellas a partir de diferentes herramientas basadas en las palabras más relevantes. Se detecta que las distintas temáticas presentan diferentes niveles de cobertura entre sí, así como también según región y según medio de prensa. También se logra constatar una relativa proporcionalidad entre el número de noticias y el número de habitantes según región, mientras que la posible relación entre el número de casos reales y el número de noticias podría explicar una proporción importante de la variabilidad experimentada por los niveles de noticias para cada temática policial.
La metodología implementada permite cumplir exitosamente con los objetivos propuestos, facilitando la comprensión y manejo de las distintas interacciones entre las etapas involucradas en el proceso. Como trabajo futuro se plantea un sistema de monitoreo continuo de los niveles de cobertura policial en medios de prensa escritos, apoyándose en la propuesta de este trabajo.