Análisis y comparación entre el motor de bases de datos orientado a columnas Infobright y el framework de aplicaciones distribuidas Hadoop en escenarios de uso de bases de datos analíticas

Silva Balocchi, Erika Fernanda

Professor Advisor	dc.contributor.advisor	Pineda Leone, Edgard
Author	dc.contributor.author	Silva Balocchi, Erika Fernanda
Staff editor	dc.contributor.editor	Facultad de Ciencias Físicas y Matemáticas
Staff editor	dc.contributor.editor	Departamento de Ciencias de la Computación
Associate professor	dc.contributor.other	Pérez Rojas, Jorge
Associate professor	dc.contributor.other	González González, Dionisio
Admission date	dc.date.accessioned	2014-08-21T17:17:23Z
Available date	dc.date.available	2014-08-21T17:17:23Z
Publication date	dc.date.issued	2014
Identifier	dc.identifier.uri	https://repositorio.uchile.cl/handle/2250/116665
General note	dc.description	Ingeniera Civil en Computación
Abstract	dc.description.abstract	Business Intelligence es la habilidad para transformar datos en información, y la información en conocimiento, de forma que se pueda optimizar la toma de decisiones en los negocios. Debido al aumento exponencial en la cantidad de datos disponibles en los ultimos años y a la complejidad de estos, las herramientas tradicionales de bases de datos y business intelligence pueden no dar a basto, suponiendo numerosos riesgos para las empresas. El objetivo de la presente memoria fue analizar el uso del framework de aplicaciones distribuidas Hadoop en comparación a la solución actual de Penta Analytics, buscando hacer un mejor uso de la infraestructura y aumentando la disponibilidad de los datos a medida que el volumen de estos crece. Actualmente esta compañía utiliza un motor de bases de datos analíticas llamado Infobright, que permite la ejecución de consultas de manera eficiente dada su estructura columnar, pero a nivel de un único servidor, limitando las capacidades de manejo de datos y uso eficiente de todos los servidores. Para realizar la comparación se tomaron en cuenta dos casos de procesamiento de datos reales; consultas OLAP y ETL, además de tres casos de consultas estándar. Para cada uno de estos casos se realizaron tres variantes según el volumen a procesar para evaluar el rendimiento según crecían los datos. La solución Hadoop fue desarrollada en un cluster en la nube, con tres servidores (un maestro y dos esclavos). En el sistema de archivos del cluster se almacenó la información a procesar y se realizaron los sets de consultas mediante dos herramientas Hadoop: Hive e Impala. Los resultados obtenidos arrojaron que Hive presenta tiempo superiores a Impala e Infobright, esto debido al overhead que implica lanzar las tareas map y reduce, sin embargo es el único que ofrece tolerancia ante el fallo de un nodo. Por otro lado Impala presenta la menor latencia, con un tiempo de respuesta mucho menor a Infobright, no obstante presenta la mayor utilización de memoria. A partir de los resultados se pudo observar que Hive se comporta mejor en trabajos pesados tipo ETL donde la robustez prime sobre el tiempo, e Impala aplica mejor en consultas ligeras donde prime la velocidad. Se pudo concluir que la combinación de distintas herramientas en un ambiente con tecnología Hadoop pueden ofrecer un buen desempeño, además de mejor utilización de máquinas y eventual tolerancia a fallos. Sin embargo hay que tomar en cuenta la curva de aprendizaje implicada.	en_US
Lenguage	dc.language.iso	es	en_US
Publisher	dc.publisher	Universidad de Chile	en_US
Type of license	dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Chile	*
Link to License	dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/cl/	*
Keywords	dc.subject	Bases de datos	en_US
Keywords	dc.subject	Administración de bases de datos	en_US
Keywords	dc.subject	Minería de datos	en_US
Keywords	dc.subject	Infobright	en_US
Keywords	dc.subject	Hadoop	en_US
Título	dc.title	Análisis y comparación entre el motor de bases de datos orientado a columnas Infobright y el framework de aplicaciones distribuidas Hadoop en escenarios de uso de bases de datos analíticas	en_US
Document type	dc.type	Tesis

Files in this item

Name:: cf-silva_eb.pdf
Size:: 2.430Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis Pregrado
Tesis Pregrado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Chile