Abstract | dc.description.abstract | El objetivo general de esta memoria es diseñar, construir e integrar un módulo con algoritmos de detección de citas bibliográficas para el sistema de análisis de originalidad en documentos digitales DOCODE 1.0.
El sistema DOcument COpy DEtector (DOCODE), fue creado a partir de algoritmos que calculan distintos índices de similitud entre documentos digitales. Estos se integraron dentro de una arquitectura de sistemas, en la medida que fueron desarrollándose, sin una visión concreta de las necesidades que tendría la plataforma en el largo plazo. Este es uno de los problemas fundamentales a ser abordados en este trabajo.
Por otro lado, se detectó la necesidad de identificar citas bibliográficas, debido a que ellas no constituyen un intento de copia, sino una base para permitir conclusiones más elaboradas. Al contener texto citado, algunos índices se ven afectados en forma negativa.
Se planteó la hipótesis que, es posible mejorar aspectos estructurales de DOCODE 1.0 orientados principalmente a mejorar la calidad del servicio, modificando la arquitectura del sistema. Además, se proyectó que la posibilidad de detectar citas bibliográficas permite mejorar la evaluación de DOCODE respecto del análisis de originalidad.
La nueva versión de DOCODE 2.0 se construyó en una arquitectura orientada a servicios, lo que permite tener un esquema de servicios web completamente desacoplado, de alta disponibilidad y escalable. Por otro lado las investigaciones para el módulo de citas permitieron establecer un esquema de solución al problema.
Dentro de los resultados en las citas, las pruebas de laboratorio permitieron determinar los mejores patrones para identificar citas, para después probarlos con documentos reales. Los valores de las pruebas de laboratorio fueron: 0,9941 (Precision), 0,9478 (Recall) y 0,9704 (F-Measure). Los valores para las pruebas en ambiente real fueron: 0,4101(Precision), 0,8302(Recall) y 0,5490(F-Measure).
En base a los cambios realizados, DOCODE puede prestar servicios para cualquier plataforma de software. Además se demostró que es posible parametrizar citas bibliográficas y construir una máquina que las detecte. | es_CL |