Sistema de detección de tendencias en la Web 2.0 basado en algoritmos de calificación de relevancia y selección automática de fuentes de documentos

Dueñas Fernández, Rodrigo Alfonso

Tesis

Open/Download

cf-duenas_rf.pdf (1.355Mb)

Publication date

2012

Metadata

Show full item record

Cómo citar

Sistema de detección de tendencias en la Web 2.0 basado en algoritmos de calificación de relevancia y selección automática de fuentes de documentosFormato de cita

Copiar

Cerrar

Author

Dueñas Fernández, Rodrigo Alfonso;

Professor Advisor

Velásquez Silva, Juan;

Abstract

El objetivo de esta memoria es solucionar las falencias de un sistema informático para la detección de tendencias en la Web de la consultora Duam S.A., a través del rediseño de su arquitectura de hardware y software, y la modificación de sus algoritmos de extracción de conocimiento. Haciendo uso de este sistema informático, Duam S.A. ofrece el servicio de inteligencia de mercado a variadas empresas, el cual consiste en la realización de un informe donde se analiza el mercado en el cual están inmersas estas instituciones, señalando sus principales competidores, posibles amenazas, oportunidades de inversión, nuevas tecnologías, etc. Este estudio es realizado a través del minado de documentos desde blogs y sitios de noticias, junto con el análisis de las opiniones vertidas en la Web por parte de los usuarios de las redes sociales. Debido a la alta cohesión del código utilizado por el sistema, replicar los procesos internos era una tarea ardua que involucraba altos costos para la empresa, por lo que no era factible dar abasto al minado de cientos de fuentes de documentos o al análisis de múltiples temáticas. Por otro lado, sus algoritmos de extracción de conocimiento no aprovechaban toda la información presente en los documentos recuperados. Además, el uso de una arquitectura física sin separación de capas, no permitía que el sistema escale eficientemente, por lo que la plataforma no era capaz de escalar acorde a la cantidad de fuentes. Por esta misma razón, el exponer la información recuperada para otras aplicaciones mermaba el rendimiento total de la aplicación. Como solución a esta problemática, se desarrollaron nuevos algoritmos de extracción de información y conocimiento desde la Web 2.0 basándose en dos hipótesis: la primera es que es posible obtener fuentes presentes en web que aporten a los resultados obtenidos a partir del análisis de la información existente en los documentos minados por el sistema. La segunda hipótesis es que es posible hacer uso de los emoticones que se encuentran en los documentos opinados para obtener mejores resultados en la extracción de opiniones a partir de estos. Para solucionar los problemas de escalabilidad del sistema se rediseñó la arquitectura considerando múltiples capas de procesamiento en donde todas las componentes están comunicadas y orientada a servicios. Para remediar las falencias del sistema desde el punto de vista de software se modularizó cada una de sus componentes y se planteó una arquitectura para aplicaciones orientadas a terceros con el fin de que estas no mermen su rendimiento. Además, se implementó un algoritmo de calificación de relevancia y selección automática para fuentes de documentos para que la información recuperada retroalimente al sistema. Finalmente, se modificó el algoritmo de extracción de opiniones para que hiciera uso de los emoticones presentes en los documentos opinados a la hora de clasificar éstos según su polaridad. El rediseño de la arquitectura del sistema resultó ser exitoso, reduciendo el uso de recursos, permitiendo la escalabilidad del sistema y además, la replicación de sus procesos internos para analizar múltiples temáticas a la vez. En cuanto al modelo de minado de opiniones, este obtuvo mejores resultados que el original. Al detectar opiniones positivas, el recall aumento de un 0.59 a un 0.62, y la precision de 0.6 a 0.67; mientras que al detectar opiniones negativas, el recall y la precision aumentaron en 0.02 y 0.03 respectivamente. Para el algoritmo de calificación de relevancia, se obtuvo un recall de 0.62 y una precision de 0.35, que están dentro de los rangos esperados debido a la gran cantidad de ruido inducida por nombres de dominio que aparecen pocas veces entre los documentos minados. Se concluye que realizar el rediseño de la plataforma fue beneficioso para la empresa, desde el punto de vista de negocio, debido a la reducción en costo humano que esta implica, y además, la mejora en los resultados entregados por el algoritmo de minado de opiniones permite una mejor apreciación del sistema por parte del usuario final. Así mismo, la posibilidad de incluir aplicaciones orientadas a terceros abre nuevas posibilidades de negocio para la empresa.

General note

Ingeniero Civil en Computación

Identifier

URI: https://repositorio.uchile.cl/handle/2250/113040

Collections

Tesis Pregrado