Show simple item record

Professor Guidedc.contributor.advisorVelásquez Silva, Juan es_CL
Authordc.contributor.authorZarate Rodriguez, Rodrigo Enrique es_CL
Staff editordc.contributor.editorFacultad de Ciencias Físicas y Matemáticases_CL
Staff editordc.contributor.editorDepartamento de Ingeniería Industriales_CL
Associate professordc.contributor.otherRíos Pérez, Sebastián A.
Associate professordc.contributor.otherL'Huillier Chaparro, Gastón
Associate professordc.contributor.otherRomán Asenjo, Pablo
Admission datedc.date.accessioned2012-09-12T18:11:58Z
Available datedc.date.available2012-09-12T18:11:58Z
Publication datedc.date.issued2011es_CL
Identifierdc.identifier.urihttp://repositorio.uchile.cl/tesis/uchile/2011/cf-zarate_rr/html/index-frames.htmles_CL
Identifierdc.identifier.urihttp://repositorio.uchile.cl/handle/2250/102576
Abstractdc.description.abstractEste trabajo de Tesis tiene por objetivo desarrollar un algoritmo aplicado a la detección de patrones de similitud entre documentos digitales, en el marco del proyecto Fondef D081-1015, DOCODE (DOcument COpy DEtector). Hay dos hechos fundamentales: no existe una cultura de educar al alumnado en base al respeto por la propiedad intelectual y el actual crecimiento del uso de las herramientas computacionales para la educación. Esto ha derivado en una práctica cada vez más que frecuente y con antecedentes a nivel internacional denominada “copy&paste”. Este problema ha conducido a desarrollar metodologías entre los alumnos para evitar ser detectados a la hora que deciden voluntaria o involuntariamente plagiar una o más fuentes, convirtiéndose para el profesor, en una lucha constante y muy lenta, o casi imposible de manejar dadas las cantidades de alumnos que poseen. Este trabajo se basa en la hipótesis de que es posible determinar la similitud entre documentos digitales mediante la detección de patrones de palabras aplicado al idioma español de mejor manera que traducir un detector de copia de una lengua extranjera, como se ha estado haciendo en los últimos años. El idioma español posee una estructura específica y una gran de sinonimia que hace que no sea eficiente tan solo aplicar los criterios lógicos usados en otros idiomas. Bajo este contexto, se crea un algoritmo basado en la búsqueda de secuencias comunes entre unidades de copia y se construye, mediante esto y una medida de distancia de edición, un prototipo capaz de tomar un grupo de documentos y entregar un indicador normalizado de la similitud existente entre dos documentos en particular. Este prototipo se somete a un experimento sobre una muestra de la base de documentos PAN-2010, en conjunto con otros detectores de similitud, el algoritmo LCS y la comparación por n-Gramas, bajo distintas condiciones: unidades de copia y tipos de copia, obteniendo distintos rendimientos en base a los indicadores: precisión, accuracy, recall y F-measure. El principal resultado encontrado es que considerando un mínimo de un 81% del largo de la unidad de copia deseada, es posible detectar copia independiente del caso estudiado. Se obtuvo una precisión y accuracy del 100% para la copia textual en todas unidades de copia. El modelo se encuentra bien calibrado para la copia no textual con un accuracy del 85.3%. El output se encuentra normalizado para entregar al usuario un resultado interpretable en términos porcentuales del nivel de similitud entre documentos. Se recomiendan unidades de medida como la oración o el párrafo, pues al tener un alfabeto finito y un algoritmo basado en la detección de secuencias comunes, el algoritmo sobrevalua la similitud en unidades de detección tan pequeñas, como la palabra. La principal línea de acción para el trabajo futuro es enfocarse en la detección de la copia no textual. Se aconseja la utilización de algoritmos de rankeo, específicamente n-Gramas, en conjunto con algoritmos de frecuencias de palabras, como TF-IDF, pues esto permite por un lado disminuir el universo de comparación y por otro, poder asociar determinados conceptos a temas característicos y adaptar la detección de similitud a un tema o área en particular. Finalmente, dadas las conversaciones con expertos en lingüística, en el largo plazo es ideal manejar indicadores asociados al individuo, de manera de detectar saltos extraordinarios en su desarrollo lingüístico, como lo son el léxico, la ortografía y la redacción, tarea que se basa en la hipótesis de que un profesor puede filtrar de manera menos estricta un comportamiento en base a sus experiencias anteriores con el individuo en particular.es_CL
Lenguagedc.language.isoeses_CL
Publisherdc.publisherUniversidad de Chilees_CL
Publisherdc.publisherCyberDocses_CL
Type of licensedc.rightsZarate Rodriguez, Rodrigo Enriquees_CL
Keywordsdc.subjectIngenieríaes_CL
Keywordsdc.subjectGestión de Operacioneses_CL
Keywordsdc.subjectPlagioes_CL
Keywordsdc.subjectDetectoreses_CL
Keywordsdc.subjectMedios digitaleses_CL
Keywordsdc.subjectEducación superior, Efectos de las innovaciones tecnológicases_CL
Keywordsdc.subjectAlgoritmos LCSes_CL
Títulodc.titleDiseño y Desarrollo de un Algoritmo de Detección de Patrones de Copia en Documentos Digitaleses_CL
Document typedc.typeTesises_CL


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record