Diseño e implementación de una técnica para la detección intrínseca de plagio en documentos digitales

Oberreuter Gallardo, Gabriel Ignacio León

Professor Advisor	dc.contributor.advisor	Velásquez Silva, Juan
Author	dc.contributor.author	Oberreuter Gallardo, Gabriel Ignacio León
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas
Staff editor	dc.contributor.editor	Departamento de Ingeniería Industrial
Associate professor	dc.contributor.other	Jiménez Molina, Ángel
Associate professor	dc.contributor.other	L'Huillier Chaparro, Gastón
Associate professor	dc.contributor.other	Román Asenjo, Pablo
Admission date	dc.date.accessioned	2013-10-11T13:34:08Z
Available date	dc.date.available	2013-10-11T13:34:08Z
Publication date	dc.date.issued	2013
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/114468
General note	dc.description	Magíster en Gestión de Operaciones
Abstract	dc.description.abstract	En este trabajo se describe el problema de plagio en documentos digitales, y se exploran diferentes técnicas utilizadas para detectar tales casos de copia haciendo uso de teoría de recuperación de información y modelos de procesamiento de lenguaje natural. A continuación se propone un nuevo algoritmo, que analiza un texto usando características lingüísticas del mismo, donde se modela el estilo de escritura presente en busca de anomalías, donde estas últimas pueden indicar la participación de más de un autor. El objetivo principal de esta tesis es el estudio de la mencionada aproximación al problema, comparando su eficiencia y eficacia con otras técnicas existentes y evalu andolo en el marco de una competición internacional en el área. Mediante el acto de plagiar uno incurre en una falta ética donde el autor original no recibe los créditos correspondientes. En el caso de documentos escritos, uno puede incurrir en esta falta incluyendo fragmentos sin las citas adecuadas, utilizando las mismas ideas, o copiando el texto en su totalidad. Ahora bien, con el auge del uso de las tecnologias de información, como Internet, una gran cantidad de información de fácil acceso se encuentra disponible, siendo constantemente actualizada con generación de nuevos contenidos. Este fenómeno permite al plagio ser llevado a cabo con mayor facilidad y presenta una opción más tentativa a los estudiantes. La detección de dichos casos de plagio es compleja, principalmente debido a las prácticamentes infinitas fuentes de información. Es por ello que sistemas automáticos de detección son necesarios, mecanismos que se basan en técnicas de procesamiento de lenguaje natural y algoritmos de secuenciamiento. Estas herramientas son habitualmente desarrolladas sobre técnicas de detección de patrones comunes, de recuperación de información y en la teoría de la información. El en campo de la detección automática de plagio, la aproximación habitual involucra la comparasión de documentos. Un documento sospechoso es comparado con la o las posibles fuentes, apuntando a detectar los segmentos potencialmente plagiados y sus fuentes respectivas. Esta aproximación se denomina "detección externa de plagio", y mientras provee las fuentes de la copia, depende fuertemente de contar con las fuentes posibles a disposición. Este hecho es de vital importancia, donde la fuente ideal de búsqueda es la Web, pero tener acceso a ella en su totalidad se encuentra lejos de ser algo práctico. En años recientes una nueva forma de atacar el problema se ha introducido. Consisteen analizar el estilo de escritura presente en un documento, y determinar segmentos cuyo estilo sea considerablemente distinto del estilo general. Si se asume que un documento fue escrito por un autor, y que el estilo del autor permanece estable, variaciones importantes del mismo podrían indicar a otro autor involucrado. El objetivo principal de esta tesis fue diseñar e implementar un método que modele y cuantfique el estilo de escritura. El modelo fue construido para detectar desviaciones en el estilo de los documentos, otorgando un punto de partida para inferir casos de plagio. La propuesta se basa en la teoría de que diferentes autores poseen diferentes preferencias sobre el uso de palabras. En este sentido, la propuesta se basa en la cuantificación de las diferencias de las frecuencias de las palabras de todos los segmentos de un documento. Se evalúa el desempeño de la propuesta en un workshop y competición internacional del área, PAN@CLEF, donde se determina su eficacia y eficiencia. Los resultados son mixtos. Mientras que la propuesta alcanza los mejores resultados en las categorías de puntaje general y de precisión, obteniendo el primer lugar en la competición, los puntajes en general son bajos: una precisión de 0.3 refleja lo inmaduros que están aun los avances en el área. Por otro lado, se puede decir con seguridad que el uso de palabras representa una característica importante para analizar el estilo de escritura. Finalmente, los experimentos fueron realizados para el idioma Inglés, pero el método no utiliza catacterísticas propias del lenguaje, lo cual permite que el método sea estudiado con otros lenguajes.	en_US
Lenguage	dc.language.iso	es	en_US
Publisher	dc.publisher	Universidad de Chile	en_US
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/	*
Keywords	dc.subject	Detectores	en_US
Keywords	dc.subject	Plagio	en_US
Keywords	dc.subject	Delitos informáticos	en_US
Keywords	dc.subject	Reconocimiento de modelos	en_US
Keywords	dc.subject	Detector de plagio	en_US
Título	dc.title	Diseño e implementación de una técnica para la detección intrínseca de plagio en documentos digitales	en_US
Document type	dc.type	Tesis

Files in this item

Name:: cf-oberreuter_gg.pdf
Size:: 2.083Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Postgrado
Tesis Postgrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile