Tutorial
Pandas vs Polars: ejemplo práctico
"El kernel murió" al usar pandas; ahí es cuando polars resulta útil.
Si intentamos cargar las 139.310.467 filas de datos históricos de los archivos del Resultado de la Programación Horaria del PDBF (I90), que abarcan desde 2014 hasta los últimos datos disponibles, obtenemos los resultados mostrados en la imagen al usar dos bibliotecas diferentes: pandas y polars.
Los archivos I90, parte de las operaciones del mercado energético español, proporcionan información detallada sobre el Resultado de la Programación Horaria del PDBF—los resultados de programación horaria del Programa Diario Base de Funcionamiento (PDBF). Estos programas describen cómo se planifica que operen las unidades de producción de energía, asegurando un equilibrio eficiente entre oferta y demanda mientras se cumplen las restricciones regulatorias y de mercado. Son una herramienta esencial para entender y analizar las complejidades operativas del sistema eléctrico español.
Aunque nos encanta usar pandas, a veces no es suficiente para manejar un volumen tan grande de filas, como se demuestra en este caso. Bibliotecas como polars pueden proporcionar soluciones alternativas para trabajar con grandes conjuntos de datos de manera más eficiente.
Si quieres implementar mejores prácticas para tus procesos de datos o aprender cómo gestionar y analizar grandes conjuntos de datos de manera efectiva, contáctanos para una formación personalizada adaptada a tus necesidades.
