Diseño y Desarrollo de un Algoritmo de Detección de Patrones de Copia en Documentos Digitales

Zarate Rodriguez, Rodrigo Enrique

Professor Advisor	dc.contributor.advisor	Velásquez Silva, Juan	es_CL
Author	dc.contributor.author	Zarate Rodriguez, Rodrigo Enrique	es_CL
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas	es_CL
Staff editor	dc.contributor.editor	Departamento de Ingeniería Industrial	es_CL
Associate professor	dc.contributor.other	Ríos Pérez, Sebastián A.
Associate professor	dc.contributor.other	L'Huillier Chaparro, Gastón
Associate professor	dc.contributor.other	Román Asenjo, Pablo
Admission date	dc.date.accessioned	2012-09-12T18:11:58Z
Available date	dc.date.available	2012-09-12T18:11:58Z
Publication date	dc.date.issued	2011	es_CL
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/tesis/uchile/2011/cf-zarate_rr/html/index-frames.html	es_CL
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/102576
Abstract	dc.description.abstract	Este trabajo de Tesis tiene por objetivo desarrollar un algoritmo aplicado a la detección de patrones de similitud entre documentos digitales, en el marco del proyecto Fondef D081-1015, DOCODE (DOcument COpy DEtector). Hay dos hechos fundamentales: no existe una cultura de educar al alumnado en base al respeto por la propiedad intelectual y el actual crecimiento del uso de las herramientas computacionales para la educación. Esto ha derivado en una práctica cada vez más que frecuente y con antecedentes a nivel internacional denominada “copy&paste”. Este problema ha conducido a desarrollar metodologías entre los alumnos para evitar ser detectados a la hora que deciden voluntaria o involuntariamente plagiar una o más fuentes, convirtiéndose para el profesor, en una lucha constante y muy lenta, o casi imposible de manejar dadas las cantidades de alumnos que poseen. Este trabajo se basa en la hipótesis de que es posible determinar la similitud entre documentos digitales mediante la detección de patrones de palabras aplicado al idioma español de mejor manera que traducir un detector de copia de una lengua extranjera, como se ha estado haciendo en los últimos años. El idioma español posee una estructura específica y una gran de sinonimia que hace que no sea eficiente tan solo aplicar los criterios lógicos usados en otros idiomas. Bajo este contexto, se crea un algoritmo basado en la búsqueda de secuencias comunes entre unidades de copia y se construye, mediante esto y una medida de distancia de edición, un prototipo capaz de tomar un grupo de documentos y entregar un indicador normalizado de la similitud existente entre dos documentos en particular. Este prototipo se somete a un experimento sobre una muestra de la base de documentos PAN-2010, en conjunto con otros detectores de similitud, el algoritmo LCS y la comparación por n-Gramas, bajo distintas condiciones: unidades de copia y tipos de copia, obteniendo distintos rendimientos en base a los indicadores: precisión, accuracy, recall y F-measure. El principal resultado encontrado es que considerando un mínimo de un 81% del largo de la unidad de copia deseada, es posible detectar copia independiente del caso estudiado. Se obtuvo una precisión y accuracy del 100% para la copia textual en todas unidades de copia. El modelo se encuentra bien calibrado para la copia no textual con un accuracy del 85.3%. El output se encuentra normalizado para entregar al usuario un resultado interpretable en términos porcentuales del nivel de similitud entre documentos. Se recomiendan unidades de medida como la oración o el párrafo, pues al tener un alfabeto finito y un algoritmo basado en la detección de secuencias comunes, el algoritmo sobrevalua la similitud en unidades de detección tan pequeñas, como la palabra. La principal línea de acción para el trabajo futuro es enfocarse en la detección de la copia no textual. Se aconseja la utilización de algoritmos de rankeo, específicamente n-Gramas, en conjunto con algoritmos de frecuencias de palabras, como TF-IDF, pues esto permite por un lado disminuir el universo de comparación y por otro, poder asociar determinados conceptos a temas característicos y adaptar la detección de similitud a un tema o área en particular. Finalmente, dadas las conversaciones con expertos en lingüística, en el largo plazo es ideal manejar indicadores asociados al individuo, de manera de detectar saltos extraordinarios en su desarrollo lingüístico, como lo son el léxico, la ortografía y la redacción, tarea que se basa en la hipótesis de que un profesor puede filtrar de manera menos estricta un comportamiento en base a sus experiencias anteriores con el individuo en particular.	es_CL
Lenguage	dc.language.iso	es	es_CL
Publisher	dc.publisher	Universidad de Chile	es_CL
Publisher	dc.publisher	CyberDocs	es_CL
Type of license	dc.rights	Zarate Rodriguez, Rodrigo Enrique	es_CL
Keywords	dc.subject	Ingeniería	es_CL
Keywords	dc.subject	Gestión de Operaciones	es_CL
Keywords	dc.subject	Plagio	es_CL
Keywords	dc.subject	Detectores	es_CL
Keywords	dc.subject	Medios digitales	es_CL
Keywords	dc.subject	Educación superior, Efectos de las innovaciones tecnológicas	es_CL
Keywords	dc.subject	Algoritmos LCS	es_CL
Título	dc.title	Diseño y Desarrollo de un Algoritmo de Detección de Patrones de Copia en Documentos Digitales	es_CL
Document type	dc.type	Tesis

Files in this item

Name:: index_14109.html
Size:: 160bytes
Format:: HTML

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record