Análisis de archivos Logs semi-estructurados de ambientes Web usando tecnologías Big-Data
Tesis
Publication date
2016Metadata
Show full item record
Cómo citar
Hogan, Aidan
Cómo citar
Análisis de archivos Logs semi-estructurados de ambientes Web usando tecnologías Big-Data
Author
Professor Advisor
Abstract
Actualmente el volumen de datos que las empresas generan es mucho más grande del
que realmente pueden procesar, por ende existe un gran universo de información que se
pierde implícito en estos datos. Este proyecto de tesis logró implementar tecnologías Big
Data capaces de extraer información de estos grandes volúmenes de datos existentes en
la organización y que no eran utilizados, de tal forma de transformarlos en valor para el
negocio.
La empresa elegida para este proyecto se dedicada al pago de cotizaciones previsionales
de forma electrónica por internet. Su función es ser el medio por el cual se recaudan las
cotizaciones de los trabajadores del país. Cada una de estas cotizaciones es informada,
rendida y publicada a las instituciones previsionales correspondientes (Mutuales, Cajas de
Compensación, AFPs, etc.). Para realizar su función, la organización ha implementado a
lo largo de sus 15 años una gran infraestructura de alto rendimiento orientada a servicios
web. Actualmente esta arquitectura de servicios genera una gran cantidad de archivos
logs que registran los sucesos de las distintas aplicaciones y portales web. Los archivos
logs tienen la característica de poseer un gran tamaño y a la vez no tener una estructura
rigurosamente definida. Esto ha causado que la organización no realice un eficiente
procesamiento de estos datos, ya que las actuales tecnologías de bases de datos
relaciones que posee no lo permiten. Por consiguiente, en este proyecto de tesis se buscó
diseñar, desarrollar, implementar y validar métodos que sean capaces de procesar
eficientemente estos archivos de logs con el objetivo de responder preguntas de negocio
que entreguen valor a la compañía.
La tecnología Big Data utilizada fue Cloudera, la que se encuentra en el marco que la
organización exige, como por ejemplo: Que tenga soporte en el país, que esté dentro de
presupuesto del año, etc. De igual forma, Cloudera es líder en el mercado de soluciones
Big Data de código abierto, lo cual entrega seguridad y confianza de estar trabajando
sobre una herramienta de calidad. Los métodos desarrollados dentro de esta tecnología
se basan en el framework de procesamiento MapReduce sobre un sistema de archivos
distribuido HDFS.
Este proyecto de tesis probó que los métodos implementados tienen la capacidad de
escalar horizontalmente a medida que se le agregan nodos de procesamiento a la
arquitectura, de forma que la organización tenga la seguridad que en el futuro, cuando los
archivos de logs tengan un mayor volumen o una mayor velocidad de generación, la
arquitectura seguirá entregando el mismo o mejor rendimiento de procesamiento, todo
dependerá del número de nodos que se decidan incorporar.
General note
Magíster en Tecnologías de la Información
Identifier
URI: https://repositorio.uchile.cl/handle/2250/140417
Collections
The following license files are associated with this item: