Diseño e implementación de una técnica para la detección intrínseca de plagio en documentos digitales
Tesis
Open/ Download
Publication date
2013Metadata
Show full item record
Cómo citar
Velásquez Silva, Juan
Cómo citar
Diseño e implementación de una técnica para la detección intrínseca de plagio en documentos digitales
Professor Advisor
Abstract
En este trabajo se describe el problema de plagio en documentos digitales, y se exploran diferentes técnicas utilizadas para detectar tales casos de copia haciendo uso de teoría de recuperación de información y modelos de procesamiento de lenguaje natural. A continuación se propone un nuevo algoritmo, que analiza un texto usando características lingüísticas del mismo, donde se modela el estilo de escritura presente en busca de anomalías, donde estas últimas pueden indicar la participación de más de un autor. El objetivo principal de esta tesis es el estudio de la mencionada aproximación al problema, comparando su eficiencia y eficacia con otras técnicas existentes y evalu andolo en el marco de una competición internacional en el área.
Mediante el acto de plagiar uno incurre en una falta ética donde el autor original no recibe los créditos correspondientes. En el caso de documentos escritos, uno puede incurrir en esta falta incluyendo fragmentos sin las citas adecuadas, utilizando las mismas ideas, o copiando el texto en su totalidad.
Ahora bien, con el auge del uso de las tecnologias de información, como Internet, una gran cantidad de información de fácil acceso se encuentra disponible, siendo constantemente actualizada con generación de nuevos contenidos. Este fenómeno permite al plagio ser llevado a cabo con mayor facilidad y presenta una opción más tentativa a los estudiantes.
La detección de dichos casos de plagio es compleja, principalmente debido a las prácticamentes infinitas fuentes de información. Es por ello que sistemas automáticos de detección son necesarios, mecanismos que se basan en técnicas de procesamiento de lenguaje natural y algoritmos de secuenciamiento. Estas herramientas son habitualmente desarrolladas sobre técnicas de detección de patrones comunes, de recuperación de información y en la teoría de la información.
El en campo de la detección automática de plagio, la aproximación habitual involucra la comparasión de documentos. Un documento sospechoso es comparado con la o las posibles fuentes, apuntando a detectar los segmentos potencialmente plagiados y sus fuentes respectivas. Esta aproximación se denomina "detección externa de plagio", y mientras provee las fuentes de la copia, depende fuertemente de contar con las fuentes posibles a disposición. Este hecho es de vital importancia, donde la fuente ideal de búsqueda es la Web, pero tener acceso a ella en su totalidad se encuentra lejos de ser algo práctico.
En años recientes una nueva forma de atacar el problema se ha introducido. Consisteen analizar el estilo de escritura presente en un documento, y determinar segmentos cuyo estilo sea considerablemente distinto del estilo general. Si se asume que un documento fue escrito por un autor, y que el estilo del autor permanece estable, variaciones importantes del mismo podrían indicar a otro autor involucrado.
El objetivo principal de esta tesis fue diseñar e implementar un método que modele y cuantfique el estilo de escritura. El modelo fue construido para detectar desviaciones en el estilo de los documentos, otorgando un punto de partida para inferir casos de plagio.
La propuesta se basa en la teoría de que diferentes autores poseen diferentes preferencias sobre el uso de palabras. En este sentido, la propuesta se basa en la cuantificación de las diferencias de las frecuencias de las palabras de todos los segmentos de un documento. Se evalúa el desempeño de la propuesta en un workshop y competición internacional del área, PAN@CLEF, donde se determina su eficacia y eficiencia.
Los resultados son mixtos. Mientras que la propuesta alcanza los mejores resultados en las categorías de puntaje general y de precisión, obteniendo el primer lugar en la competición, los puntajes en general son bajos: una precisión de 0.3 refleja lo inmaduros que están aun los avances en el área. Por otro lado, se puede decir con seguridad que el uso de palabras representa una característica importante para analizar el estilo de escritura. Finalmente, los experimentos fueron realizados para el idioma Inglés, pero el método no utiliza catacterísticas propias del lenguaje, lo cual permite que el método sea estudiado con otros lenguajes.
General note
Magíster en Gestión de Operaciones
Identifier
URI: https://repositorio.uchile.cl/handle/2250/114468
Collections
The following license files are associated with this item: