Diseño y Desarrollo de un Algoritmo de Detección de Patrones de Copia en Documentos Digitales
Tesis
Open/ Download
Publication date
2011Metadata
Show full item record
Cómo citar
Velásquez Silva, Juan
Cómo citar
Diseño y Desarrollo de un Algoritmo de Detección de Patrones de Copia en Documentos Digitales
Professor Advisor
Abstract
Este trabajo de Tesis tiene por objetivo desarrollar un algoritmo aplicado a la detección de patrones de similitud entre documentos digitales, en el marco del proyecto Fondef D081-1015, DOCODE (DOcument COpy DEtector). Hay dos hechos fundamentales: no existe una cultura de educar al alumnado en base al respeto por la propiedad intelectual y el actual crecimiento del uso de las herramientas computacionales para la educación. Esto ha derivado en una práctica cada vez más que frecuente y con antecedentes a nivel internacional denominada “copy&paste”. Este problema ha conducido a desarrollar metodologías entre los alumnos para evitar ser detectados a la hora que deciden voluntaria o involuntariamente plagiar una o más fuentes, convirtiéndose para el profesor, en una lucha constante y muy lenta, o casi imposible de manejar dadas las cantidades de alumnos que poseen. Este trabajo se basa en la hipótesis de que es posible determinar la similitud entre documentos digitales mediante la detección de patrones de palabras aplicado al idioma español de mejor manera que traducir un detector de copia de una lengua extranjera, como se ha estado haciendo en los últimos años. El idioma español posee una estructura específica y una gran de sinonimia que hace que no sea eficiente tan solo aplicar los criterios lógicos usados en otros idiomas. Bajo este contexto, se crea un algoritmo basado en la búsqueda de secuencias comunes entre unidades de copia y se construye, mediante esto y una medida de distancia de edición, un prototipo capaz de tomar un grupo de documentos y entregar un indicador normalizado de la similitud existente entre dos documentos en particular. Este prototipo se somete a un experimento sobre una muestra de la base de documentos PAN-2010, en conjunto con otros detectores de similitud, el algoritmo LCS y la comparación por n-Gramas, bajo distintas condiciones: unidades de copia y tipos de copia, obteniendo distintos rendimientos en base a los indicadores: precisión, accuracy, recall y F-measure. El principal resultado encontrado es que considerando un mínimo de un 81% del largo de la unidad de copia deseada, es posible detectar copia independiente del caso estudiado. Se obtuvo una precisión y accuracy del 100% para la copia textual en todas unidades de copia. El modelo se encuentra bien calibrado para la copia no textual con un accuracy del 85.3%. El output se encuentra normalizado para entregar al usuario un resultado interpretable en términos porcentuales del nivel de similitud entre documentos. Se recomiendan unidades de medida como la oración o el párrafo, pues al tener un alfabeto finito y un algoritmo basado en la detección de secuencias comunes, el algoritmo sobrevalua la similitud en unidades de detección tan pequeñas, como la palabra. La principal línea de acción para el trabajo futuro es enfocarse en la detección de la copia no textual. Se aconseja la utilización de algoritmos de rankeo, específicamente n-Gramas, en conjunto con algoritmos de frecuencias de palabras, como TF-IDF, pues esto permite por un lado disminuir el universo de comparación y por otro, poder asociar determinados conceptos a temas característicos y adaptar la detección de similitud a un tema o área en particular. Finalmente, dadas las conversaciones con expertos en lingüística, en el largo plazo es ideal manejar indicadores asociados al individuo, de manera de detectar saltos extraordinarios en su desarrollo lingüístico, como lo son el léxico, la ortografía y la redacción, tarea que se basa en la hipótesis de que un profesor puede filtrar de manera menos estricta un comportamiento en base a sus experiencias anteriores con el individuo en particular.
Identifier
URI: https://repositorio.uchile.cl/tesis/uchile/2011/cf-zarate_rr/html/index-frames.html
https://repositorio.uchile.cl/handle/2250/102576
Collections