Aplicación de técnicas de Big Data para el procesamiento de datos de la operación del sector eléctrico
Professor Advisor
dc.contributor.advisor
Benavides Farías, Carlos
Professor Advisor
dc.contributor.advisor
Gwinner Silva, Sebastián
Author
dc.contributor.author
Recabal Ávila, Jorge Andrés
Associate professor
dc.contributor.other
Estévez Valencia, Pablo
Admission date
dc.date.accessioned
2024-08-06T15:46:00Z
Available date
dc.date.available
2024-08-06T15:46:00Z
Publication date
dc.date.issued
2024
Identifier
dc.identifier.uri
https://repositorio.uchile.cl/handle/2250/199959
Abstract
dc.description.abstract
Este trabajo tiene como objetivo aplicar técnicas de Big Data para el procesamiento eficiente de datos en el sector eléctrico, con el fin de mejorar la capacidad de análisis y toma de decisiones. Las técnicas implementadas se aplicaron a datos de generación eléctrica, flujos por las líneas de transmisión y costos marginales del Sistema Eléctrico Nacional. El procesamiento de esta información permite calcular indicadores como generación por tipo de tecnología, factores de planta de centrales, percentiles de los flujos por las líneas de transmisión y costos marginales. Los datos con resolución horaria fueron construidos a partir de simulaciones realizadas con modelo proyección a largo plazo (modelo PLP). En específico, se aplicaron herramientas de Big Data que permiten la optimización de las rutinas de procesamiento de salidas y manejo de archivos con alto volumen de información.
En una primera etapa, las rutinas preexistentes fueron optimizadas de manera que la comparación con respecto al uso de técnicas de Big Data fuera más justa. Para ello, inicialmente se centró en la optimización de la lectura y escritura de archivos mediante el uso eficiente de la biblioteca Pandas. Esto se tradujo en un procesamiento más rápido y en la reducción del uso de memoria RAM al crear y almacenar Dataframes de manera directa.
Para ahorrar recursos en memoria y disminuir el volumen de información, se exploraron alternativas como Parquet y Feather, demostrando reducciones significativas en el tamaño de archivos y mejoras en la eficiencia de lectura y escritura, tanto para los archivos originales en formato CSV como para los datos con resolución horaria. Las salidas del modelo PLP originales pesaban decenas de gigabytes, lo cual se reduce a solo unos pocos o inclusive al orden de megabytes. Mientras que, para los archivos transformados a resolución horaria, el tamaño de estos disminuyó de cientos de gigabytes a tamaños menores a 20 gigabytes.
Para el desarrollo de las rutinas de procesamiento, se exploraron herramientas como Dask y Pyspark, destacando la ejecución perezosa y la computación distribuida como enfoques clave para mejorar la eficiencia en grandes volúmenes de datos. Las rutinas implementadas se aplicaron para procesar las salidas de 4 casos de estudio del modelo PLP que representaban casos de diferentes tamaños. Se consiguió mejorar los tiempos de ejecución de las rutinas en hasta seis veces con los respecto a los tiempos originales. Para el caso más grande, el tiempo de procesamiento pasó de una hora a demorar entre diez a quince minutos aproximadamente.
De esta forma, se concluye que, gracias a las herramientas de Big Data implementadas, es posible lograr resultados positivos en cuanto al manejo eficiente del volumen de información y la velocidad de procesamiento de los datos.
es_ES
Lenguage
dc.language.iso
es
es_ES
Publisher
dc.publisher
Universidad de Chile
es_ES
Type of license
dc.rights
Attribution-NonCommercial-NoDerivs 3.0 United States