Excel es el programa más utilizado por las empresas para procesar y presentar datos. Sin embargo, llega a sus límites en cuanto se quiere manipular grandes cantidades de información. Para superar estas limitaciones técnicas, existe una potente solución al alcance de todos: Python. La científica de datos senior y formadora de ORSYS Audrey Quessada Vial* demuestra con ejemplos la superioridad de Python para analizar datos.
Desde la década de 2010, los datos se han convertido en el nuevo oro negro para las empresas. El big data, la transformación digital y el desarrollo de la inteligencia artificial han cambiado las reglas del juego. Entonces, ¿cómo puedes sacar el máximo partido a tus datos?
Excel es, por supuesto, el primero de la lista. Muy utilizado y fácil de usar, sigue siendo indispensable. Pero en cuanto se quieren utilizar datos masivos, más allá de 1 millón de entradas, se tropieza con sus limitaciones técnicas. La hoja de cálculo cede más allá de 1 millón de líneas (1.048.576 líneas para ser precisos, es decir, 220).
Muchos conjuntos de datos superan este tamaño. Por ejemplo, las cotizaciones bursátiles históricas (809 MB en formato zip para las acciones estadounidenses), la base de datos Sirene de empresas francesas del INSEE (1,3 GB), la base de datos nacional de edificios del Centre Scientifique et Technique du Bâtiment (5,3 GB) y la base de datos de marcas francesas del INPI (15 GB).
Para superar estas limitaciones, hay que abandonar Excel y recurrir a Python. ¿Por qué Python? Python se distingue de otras soluciones de tratamiento de datos masivos (R, Julia, MATLAB, Scala, SQL, etc.) por su sintaxis sencilla, su gestión de la memoria y, sobre todo, su impresionante número de bibliotecas.
Python se dirige tanto a los científicos de datos como a los no especialistas, como los profesionales de las finanzas y el marketing, y más en general a todos los usuarios avanzados de Excel.
Las bibliotecas de Python, la mayoría de código abierto, pueden utilizarse para ampliar sus capacidades en muchas áreas. En el caso de los datos, la biblioteca estrella es Pandas.
Python y Pandas, tus aliados en datos
Familiarizarse con Python y Pandas es relativamente rápido y sencillo, por lo que resultan ideales para los recién llegados a la programación. No es de extrañar que Python sea el lenguaje más utilizado del mundo en 2022, por delante de Java y C/C++, según el índice de popularidad PYPL. De hecho, los conocimientos de Python son muy codiciados por las empresas: es el segundo lenguaje más solicitado en las ofertas de empleo después de JavaScript, según un estudio de laUniversidad de California, Berkeley.
Pandas no viene del nombre del simpático animal que es símbolo de China. Estallidoel data, una estructura de datos muy utilizada en econometría, el estudio estadístico de los datos económicos.
La potencia de Pandas proviene de su velocidad en el procesamiento de datos. Puede manejar fácilmente un millón de entradas en cuestión de segundos.
Flexible, puede utilizarse para la visualización básica de datos y para crear diferentes vistas del conjunto de datos mediante tablas dinámicas. También es posible agrupar datos por categorías y realizar operaciones de agregación que van desde las más sencillas (sumas acumuladas o medias, por ejemplo) hasta las más complejas. Además, con una sola línea de código puede abrir el archivo y trabajar con los datos. Incluso puedes ejecutar consultas SQL con Pandas.
Pandas también acepta una impresionante lista de formatos de archivo: CSV, XLSX, SQL, Apache Parquet, HDF5, JSON... y muchos más.
En resumen, las principales ventajas de Pandas sobre Excel son :
- gestionando millones de líneas
- velocidad
- automatización de tareas: con Excel, está limitada cuando se utiliza VBA o macros
- elaboración de informes utilizando la plataforma Jupyter Notebook para la visualización de datos
- compatibilidad multiplataforma: puede trabajar tanto en macOS como en Windows.
Pasar de Excel a Python y Pandas
Con un poco de conocimiento de Python, es fácil cambiar de Microsoft Excel a Pandas. La mayoría de las tareas que se hacen en Excel también se pueden hacer en Pandas.
Pongamos un ejemplo para ilustrar la facilidad y la potencia de Python y Pandas. He aquí un conjunto de datos del Banco Mundial que se puede encontrar en el sitio Kaggle. Este archivo tiene un tamaño de 574,3 MB y contiene casi 6 millones de entradas. Contiene una serie de indicadores económicos y sociales por país y por año.
Se necesitan menos de 3 segundos para leer este archivo con una sola línea de código.
Ahora vamos a mirar las cinco primeras líneas para ver a qué corresponden estos datos. Una vez más, basta con una sola línea de código:
También es posible recuperar los principales indicadores estadísticos asociados a cada columna:
Filtrar los datos no puede ser más sencillo. En el siguiente ejemplo, filtraremos los datos para mantener únicamente el PIB per cápita como indicador:
¿Y si calculamos el PIB per cápita medio y máximo de todos los años para cada país? Una vez más, sólo se necesita una línea de código con Pandas:
Estos pocos ejemplos ilustran toda la potencia de Pandas. No son, ni mucho menos, exhaustivos de las posibilidades disponibles.
Podemos resumir en una tabla los usos para los que se puede utilizar Python y Pandas en lugar de Excel.
Pandas es una librería extremadamente potente para trabajar con datos. Tiene muchas ventajas sobre Excel y permite ir mucho más allá en el procesamiento de datos y la automatización de tareas. Su flexibilidad y velocidad la convierten en una herramienta indispensable para la ciencia de datos.
A pesar de ello, Pandas no es la única biblioteca de Python que ofrece ventajas para el procesamiento de datos. Las herramientas de visualización permiten comprender las interacciones entre parámetros. Muchas bibliotecas ofrecen herramientas de visualización: geovisualización con Folium, visualización interactiva con Plotly, creación de cuadros de mando interactivos con Dash, visualización de datos voluminosos con Holoviews... no faltan opciones.
En conclusión, Python tiene mucho a su favor. Gracias a sus bibliotecas de libre acceso, supera a Excel en el tratamiento y la visualización de datos masivos (estructurados o no). Nuestros cursos de formación le ayudarán a familiarizarse rápidamente con esta potente herramienta.