Modelo de Fusión de Score Utilizando Teoría de la Información para Integración de Sistemas de Similitud de Documentos
Tesis
Open/ Download
Publication date
2011Metadata
Show full item record
Cómo citar
Ríos Pérez, Sebastián
Cómo citar
Modelo de Fusión de Score Utilizando Teoría de la Información para Integración de Sistemas de Similitud de Documentos
Author
Professor Advisor
Abstract
El presente proyecto de tesis se enmarca dentro del proyecto FONDEF DO8I-1015 llamado DOcument COpy
DEtector (DOCODE), cuyo objetivo es desarrollar un sistema de detección de copia escrita. Hoy ya existe una versión
1.0 de DOCODE que incluye búsqueda web a partir de un texto ingresado1
, sin embargo se está desarrollando la
versión 2.0 en la cual se incluirán parseadores, sistemas de similitud de documento, y demás herramientas avanzadas;
y es en esta nueva versión que se incluirá el Modelo de Fusión de Datos que aquí se describe.
Antes de explicar el desarrollo de esta tesis recordemos la etapa de cambio que vivimos en la actualidad,
la llamada revolución informática, que en pocas palabras es la masificación y facilidad de acceso a la información
mediante equipos electrónicos. Esta etapa de cambio se ve fortalecida con el Internet, medio que permite a las personas
consultar e intercambiar información con terceros con bastante facilidad. Esta comodidad de acceso a la información
también trae consigo un inconveniente: el problema del plagio, un mal que en esta época de adelantos puede traer
atrasos, porque un estudiante en formación en lugar de investigar se puede dedicar a copiar y pegar información que
encuentra fácilmente en Internet. Este problema no es menor y repercute en muchos ámbitos, no sólo académico,
porque además de ser un problema ético, a gran escala se puede convertir en un problema serio con índoles legales.
Para evitar ello, los investigadores del tema han desarrollado diversos métodos y sistemas de detección de
plagio. Los cuales se basan en metodologías o algoritmos numérico–matemáticos que ayudan a identificar el grado de
similitud entre un par de documentos A y B, también denominado dupla de Documento Sospechoso vs. Documento
Fuente. Estos desarrollos poseen un variado desempeño, y es dependiente de la base de prueba. Es decir, algunos
métodos funcionan bien y dan un resultado confiable para cierta base de experimentación, pero otros no, y estos mismos
métodos pueden entregar malos resultados para otra base, mientras que los otros dan buenos resultados. Eliminar la
“incertidumbre” en los resultados es la motivación principal de esta tesis, por ello se propone desarrollar un modelo
para detección de plagio que pueda incluir N métodos de detección individuales (Donde: N ∈ Z
+) y que sea capaz de
tomar sus mejores resultados para mostrarlos como un único resultado final.
Con lo descrito, se plantea el objetivo de este proyecto: “Desarrollar un Modelo de Fusión de Datos eficiente
que pueda integrar diversos resultados de Sistemas de detección de similitud entre documentos”
Para conseguir dicho objetivo se Diseñó y Desarrolló un Modelo de Fusión de Datos para la detección de plagio
entre documentos que posee tres partes importantes: (1) La modificación de la Ecuación del Valor de la Información
propuesta por Yu Suzuki et. al. [67]. (2) Un Sistema de Combinación Geométrico y (3) Una formulación que incluye
un Factor de credibilidad. Que es un indicador ingresado por el usuario (juicio experto) y que muestra el nivel de
confianza que se le tiene a un Método de Detección de Plagio.
Posteriormente, el Modelo propuesto se validó con una base de pruebas supervisada otorgada por la PAN20102
[55] y se le comparó con otros Modelos de Fusión de Datos Clásicos [49, 63]. En esta comparación el Modelo de
Fusión de Datos Propuesto en la tesis alcanzó el mejor desempeño con un F-MEASURE promedio de 94.3 % y una
desviación estándar de 8.2 %, logrando así ser el más eficiente entre los modelos.
Además, con ayuda del grupo de Social Network Analysis (SNA) de la Universidad de Chile3
, se realizó un
análisis para detectar grupos sociales de copia para un conjunto de tareas digitales presentadas por alumnos del ramo
de Tecnologías de la Información4 donde se logró detectar relación de similitud entre tareas de algunos alumnos. Esto
después se contrastó con el auxiliar del ramo y se verificó la existencia de copia para los documentos reconocidos por
el sistema. En esta etapa se utilizaron grafos dirigidos, para la representación visual de los resultados.
Finalmente, se concluyó que el sistema desarrollado es eficiente con un ACCURACY, PRECISION y RECALL
de 99.8 %, 96.1 % y 78.1 % respectivamente. Consiguiendo, de ese modo, cumplir con el objetivo propuesto.
Identifier
URI: https://repositorio.uchile.cl/handle/2250/102682
Collections