Show simple item record

Professor Advisordc.contributor.advisorRíos Pérez, Sebastiánes_CL
Authordc.contributor.authorGuerrero Quichiz, Gerardo Manueles_CL
Staff editordc.contributor.editorFacultad de Ciencias Físicas y Matemáticases_CL
Staff editordc.contributor.editorDepartamento de Ingeniería Industriales_CL
Associate professordc.contributor.otherVelásquez Silva, Juan
Associate professordc.contributor.otherL'Huillier Chaparro, Gastón
Associate professordc.contributor.otherMarín Caihuan, Juan Mauricio
Admission datedc.date.accessioned2012-09-12T18:12:04Z
Available datedc.date.available2012-09-12T18:12:04Z
Publication datedc.date.issued2011es_CL
Identifierdc.identifier.urihttps://repositorio.uchile.cl/handle/2250/102682
Abstractdc.description.abstractEl presente proyecto de tesis se enmarca dentro del proyecto FONDEF DO8I-1015 llamado DOcument COpy DEtector (DOCODE), cuyo objetivo es desarrollar un sistema de detección de copia escrita. Hoy ya existe una versión 1.0 de DOCODE que incluye búsqueda web a partir de un texto ingresado1 , sin embargo se está desarrollando la versión 2.0 en la cual se incluirán parseadores, sistemas de similitud de documento, y demás herramientas avanzadas; y es en esta nueva versión que se incluirá el Modelo de Fusión de Datos que aquí se describe. Antes de explicar el desarrollo de esta tesis recordemos la etapa de cambio que vivimos en la actualidad, la llamada revolución informática, que en pocas palabras es la masificación y facilidad de acceso a la información mediante equipos electrónicos. Esta etapa de cambio se ve fortalecida con el Internet, medio que permite a las personas consultar e intercambiar información con terceros con bastante facilidad. Esta comodidad de acceso a la información también trae consigo un inconveniente: el problema del plagio, un mal que en esta época de adelantos puede traer atrasos, porque un estudiante en formación en lugar de investigar se puede dedicar a copiar y pegar información que encuentra fácilmente en Internet. Este problema no es menor y repercute en muchos ámbitos, no sólo académico, porque además de ser un problema ético, a gran escala se puede convertir en un problema serio con índoles legales. Para evitar ello, los investigadores del tema han desarrollado diversos métodos y sistemas de detección de plagio. Los cuales se basan en metodologías o algoritmos numérico–matemáticos que ayudan a identificar el grado de similitud entre un par de documentos A y B, también denominado dupla de Documento Sospechoso vs. Documento Fuente. Estos desarrollos poseen un variado desempeño, y es dependiente de la base de prueba. Es decir, algunos métodos funcionan bien y dan un resultado confiable para cierta base de experimentación, pero otros no, y estos mismos métodos pueden entregar malos resultados para otra base, mientras que los otros dan buenos resultados. Eliminar la “incertidumbre” en los resultados es la motivación principal de esta tesis, por ello se propone desarrollar un modelo para detección de plagio que pueda incluir N métodos de detección individuales (Donde: N ∈ Z +) y que sea capaz de tomar sus mejores resultados para mostrarlos como un único resultado final. Con lo descrito, se plantea el objetivo de este proyecto: “Desarrollar un Modelo de Fusión de Datos eficiente que pueda integrar diversos resultados de Sistemas de detección de similitud entre documentos” Para conseguir dicho objetivo se Diseñó y Desarrolló un Modelo de Fusión de Datos para la detección de plagio entre documentos que posee tres partes importantes: (1) La modificación de la Ecuación del Valor de la Información propuesta por Yu Suzuki et. al. [67]. (2) Un Sistema de Combinación Geométrico y (3) Una formulación que incluye un Factor de credibilidad. Que es un indicador ingresado por el usuario (juicio experto) y que muestra el nivel de confianza que se le tiene a un Método de Detección de Plagio. Posteriormente, el Modelo propuesto se validó con una base de pruebas supervisada otorgada por la PAN20102 [55] y se le comparó con otros Modelos de Fusión de Datos Clásicos [49, 63]. En esta comparación el Modelo de Fusión de Datos Propuesto en la tesis alcanzó el mejor desempeño con un F-MEASURE promedio de 94.3 % y una desviación estándar de 8.2 %, logrando así ser el más eficiente entre los modelos. Además, con ayuda del grupo de Social Network Analysis (SNA) de la Universidad de Chile3 , se realizó un análisis para detectar grupos sociales de copia para un conjunto de tareas digitales presentadas por alumnos del ramo de Tecnologías de la Información4 donde se logró detectar relación de similitud entre tareas de algunos alumnos. Esto después se contrastó con el auxiliar del ramo y se verificó la existencia de copia para los documentos reconocidos por el sistema. En esta etapa se utilizaron grafos dirigidos, para la representación visual de los resultados. Finalmente, se concluyó que el sistema desarrollado es eficiente con un ACCURACY, PRECISION y RECALL de 99.8 %, 96.1 % y 78.1 % respectivamente. Consiguiendo, de ese modo, cumplir con el objetivo propuesto.
Lenguagedc.language.isoeses_CL
Publisherdc.publisherUniversidad de Chilees_CL
Type of licensedc.rightsAttribution-NonCommercial-NoDerivs 3.0 Chile
Link to Licensedc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/cl/
Keywordsdc.subjectGestión de Operacioneses_CL
Keywordsdc.subjectPlagioes_CL
Keywordsdc.subjectDetectoreses_CL
Keywordsdc.subjectReconocimiento de modeloses_CL
Keywordsdc.subjectDOCODEes_CL
Keywordsdc.subjectFusión de datoses_CL
Títulodc.titleModelo de Fusión de Score Utilizando Teoría de la Información para Integración de Sistemas de Similitud de Documentoses_CL
Document typedc.typeTesises_CL


Files in this item

Icon

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Chile
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile