About
Contact
Help
Sending publications
How to publish
Advanced Search
View Item 
  •   Home
  • Facultad de Ciencias Físicas y Matemáticas
  • Tesis Pregrado
  • View Item
  •   Home
  • Facultad de Ciencias Físicas y Matemáticas
  • Tesis Pregrado
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse byCommunities and CollectionsDateAuthorsTitlesSubjectsThis CollectionDateAuthorsTitlesSubjects

My Account

Login to my accountRegister
Biblioteca Digital - Universidad de Chile
Revistas Chilenas
Repositorios Latinoamericanos
Tesis LatinoAmericanas
Tesis chilenas
Related linksRegistry of Open Access RepositoriesOpenDOARGoogle scholarCOREBASE
My Account
Login to my accountRegister

Sistema de detección de tendencias en la Web 2.0 basado en algoritmos de calificación de relevancia y selección automática de fuentes de documentos

Tesis
Thumbnail
Open/Download
Iconcf-duenas_rf.pdf (1.355Mb)
Publication date
2012
Metadata
Show full item record
Cómo citar
Velásquez Silva, Juan
Cómo citar
Sistema de detección de tendencias en la Web 2.0 basado en algoritmos de calificación de relevancia y selección automática de fuentes de documentos
.
Copiar
Cerrar

Author
  • Dueñas Fernández, Rodrigo Alfonso;
Professor Advisor
  • Velásquez Silva, Juan;
Abstract
El objetivo de esta memoria es solucionar las falencias de un sistema informático para la detección de tendencias en la Web de la consultora Duam S.A., a través del rediseño de su arquitectura de hardware y software, y la modificación de sus algoritmos de extracción de conocimiento. Haciendo uso de este sistema informático, Duam S.A. ofrece el servicio de inteligencia de mercado a variadas empresas, el cual consiste en la realización de un informe donde se analiza el mercado en el cual están inmersas estas instituciones, señalando sus principales competidores, posibles amenazas, oportunidades de inversión, nuevas tecnologías, etc. Este estudio es realizado a través del minado de documentos desde blogs y sitios de noticias, junto con el análisis de las opiniones vertidas en la Web por parte de los usuarios de las redes sociales. Debido a la alta cohesión del código utilizado por el sistema, replicar los procesos internos era una tarea ardua que involucraba altos costos para la empresa, por lo que no era factible dar abasto al minado de cientos de fuentes de documentos o al análisis de múltiples temáticas. Por otro lado, sus algoritmos de extracción de conocimiento no aprovechaban toda la información presente en los documentos recuperados. Además, el uso de una arquitectura física sin separación de capas, no permitía que el sistema escale eficientemente, por lo que la plataforma no era capaz de escalar acorde a la cantidad de fuentes. Por esta misma razón, el exponer la información recuperada para otras aplicaciones mermaba el rendimiento total de la aplicación. Como solución a esta problemática, se desarrollaron nuevos algoritmos de extracción de información y conocimiento desde la Web 2.0 basándose en dos hipótesis: la primera es que es posible obtener fuentes presentes en web que aporten a los resultados obtenidos a partir del análisis de la información existente en los documentos minados por el sistema. La segunda hipótesis es que es posible hacer uso de los emoticones que se encuentran en los documentos opinados para obtener mejores resultados en la extracción de opiniones a partir de estos. Para solucionar los problemas de escalabilidad del sistema se rediseñó la arquitectura considerando múltiples capas de procesamiento en donde todas las componentes están comunicadas y orientada a servicios. Para remediar las falencias del sistema desde el punto de vista de software se modularizó cada una de sus componentes y se planteó una arquitectura para aplicaciones orientadas a terceros con el fin de que estas no mermen su rendimiento. Además, se implementó un algoritmo de calificación de relevancia y selección automática para fuentes de documentos para que la información recuperada retroalimente al sistema. Finalmente, se modificó el algoritmo de extracción de opiniones para que hiciera uso de los emoticones presentes en los documentos opinados a la hora de clasificar éstos según su polaridad. El rediseño de la arquitectura del sistema resultó ser exitoso, reduciendo el uso de recursos, permitiendo la escalabilidad del sistema y además, la replicación de sus procesos internos para analizar múltiples temáticas a la vez. En cuanto al modelo de minado de opiniones, este obtuvo mejores resultados que el original. Al detectar opiniones positivas, el recall aumento de un 0.59 a un 0.62, y la precision de 0.6 a 0.67; mientras que al detectar opiniones negativas, el recall y la precision aumentaron en 0.02 y 0.03 respectivamente. Para el algoritmo de calificación de relevancia, se obtuvo un recall de 0.62 y una precision de 0.35, que están dentro de los rangos esperados debido a la gran cantidad de ruido inducida por nombres de dominio que aparecen pocas veces entre los documentos minados. Se concluye que realizar el rediseño de la plataforma fue beneficioso para la empresa, desde el punto de vista de negocio, debido a la reducción en costo humano que esta implica, y además, la mejora en los resultados entregados por el algoritmo de minado de opiniones permite una mejor apreciación del sistema por parte del usuario final. Así mismo, la posibilidad de incluir aplicaciones orientadas a terceros abre nuevas posibilidades de negocio para la empresa.
General note
Ingeniero Civil en Computación
Identifier
URI: https://repositorio.uchile.cl/handle/2250/113040
Collections
  • Tesis Pregrado
xmlui.footer.title
31 participating institutions
More than 73,000 publications
More than 110,000 topics
More than 75,000 authors
Published in the repository
  • How to publish
  • Definitions
  • Copyright
  • Frequent questions
Documents
  • Dating Guide
  • Thesis authorization
  • Document authorization
  • How to prepare a thesis (PDF)
Services
  • Digital library
  • Chilean academic journals portal
  • Latin American Repository Network
  • Latin American theses
  • Chilean theses
Dirección de Servicios de Información y Bibliotecas (SISIB)
Universidad de Chile

© 2020 DSpace
  • Access my account