Diseño y construcción de un Data Mart para el análisis de preferencias del usuario en la web a partir de datos originados en el portal Educarchile
Tesis
Open/ Download
Publication date
2012Metadata
Show full item record
Cómo citar
Velásquez Silva, Juan
Cómo citar
Diseño y construcción de un Data Mart para el análisis de preferencias del usuario en la web a partir de datos originados en el portal Educarchile
Author
Professor Advisor
Abstract
El objetivo general del trabajo de título es diseñar y construir un Data Mart que permita obtener indicadores de uso de los escritorios del portal educarchile.
Educarchile es un portal administrado por la Fundación Chile, y que fue creado por esta última en conjunto con el Ministerio de Educación. Su misión es contribuir al mejoramiento de la calidad de la educación en todos sus niveles, para lo cual cuenta con un sitio dirigido a todos los miembros de la comunidad educativa nacional. Para esto, el diseño del sitio se basa en un Home y 4 escritorios enfocados en cada segmento de usuarios, los que constan de secciones que sirven de enlace al contenido del portal.
Educarchile, con el objetivo de obtener información acerca del comportamiento de sus usuarios, trabaja con dos herramientas de pago, Certifica y Google Analytics. Sin embargo, debido al tamaño del portal y el dinamismo del contenido publicado en sus escritorios, no obtiene de estas herramientas información acerca de las preferencias que tienen los usuarios respecto a las secciones de aquellas páginas, y las llamadas viñetas que las componen, que son recursos que permiten la publicación de contenido bajo la restricción que algunas sean visualizadas solo si se hace un click sobre ellas. Adicionalmente, el sitio permite la emisión de opiniones en los artículos, sin embargo, no existe ningún tipo de alerta o filtro para las publicaciones que no se ajustan al clima y objetivo del portal.
La hipótesis del trabajo plantea que a través de la creación de indicadores limpios y consolidados respecto del uso de las secciones y viñetas que componen el portal, y que se almacenarán en un Data Mart, el equipo de administración del sitio podrá acceder a información detallada acerca del comportamiento de sus visitantes, la que no ha sido obtenida hasta hoy.
Para llevar a cabo el trabajo, se diseñó una arquitectura que permite la extracción y el procesamiento de los datos, además de su posterior carga en un repositorio multidimensional, el que funciona como fuente de datos para consultas OLAP. La arquitectura consta de 3 elementos principales: los modelos de datos; el proceso de extracción, transformación y carga de los datos; y un modelo para clasificar y filtrar opiniones, basado en el algoritmo Naive Bayes. Para cada elemento se optó por la utilización de herramientas gratuitas.
Los indicadores obtenidos a través del procesamiento de los archivos weblog entregaron información desconocida y valiosa al equipo del portal. Uno de los principales resultados fue: comprobar que las viñetas que componen las secciones de los escritorios producen un alto sesgo en el comportamiento de los usuarios, principalmente en aquellas secciones que contienen información de actualidad. En ellas los usuarios no visualizan los recursos que son publicados en las viñetas que se encuentran ocultas por defecto, lo que se traduce en una política ineficiente de edición y publicación de artículos. Por su parte, el algoritmo Naive Bayes obtuvo un alto índice de recall para aquellas clases que se deseaba predecir (ayuda y planificación), que en ambos casos supera el 85%. Sin embargo, la clase que representa el resto de los comentarios tiene un menor recall, habiendo un 30% de las opiniones clasificadas erróneamente.
Como conclusión, el modelo propuesto es capaz de satisfacer las necesidades de información de la organización, entregando conocimiento útil a la hora de evaluar y definir nuevas políticas de publicación de contenidos que se ajusten a las reales preferencias de los usuarios. A pesar de aquello, se recomienda realizar una nueva medición de los indicadores una vez efectuados cambios en el diseño de las páginas, para así obtener resultados contundentes que permitan identificar las preferencias de diseño y contenido por parte de los usuarios. Además, se recomienda implementar en el sitio el modelo obtenido para las opiniones, y así detener la publicación de comentarios que no aportan valor al sitio.
General note
Ingeniero Civil Industrial
Identifier
URI: https://repositorio.uchile.cl/handle/2250/111296
Collections