Excel is de meest gebruikte software door bedrijven voor het verwerken en presenteren van gegevens. Het bereikt echter zijn grenzen zodra je grote hoeveelheden informatie wilt manipuleren. Om deze technische beperkingen te overwinnen, is er een krachtige oplossing beschikbaar voor iedereen: Python. Senior data scientist en ORSYS trainer Audrey Quessada Vial* demonstreert aan de hand van een voorbeeld de superioriteit van Python voor het analyseren van gegevens.
Sinds de jaren 2010 zijn gegevens het nieuwe zwarte goud geworden voor bedrijven. Big data, digitale transformatie en de ontwikkeling van kunstmatige intelligentie hebben het spel veranderd. Dus hoe kunnen we gegevens effectief benutten?
Excel staat natuurlijk bovenaan de lijst. Het wordt veel gebruikt en is gemakkelijk in het gebruik en blijft onmisbaar. Maar zodra je enorme hoeveelheden gegevens wilt gebruiken, meer dan 1 miljoen regels, stuit je op de technische beperkingen. De spreadsheet geeft het op boven 1 miljoen regels (1.048.576 regels om precies te zijn, d.w.z. 220).
Veel datasets overschrijden deze grootte. Dit zijn onder andere historische aandelenkoersen (809 MB in zip-formaat voor Amerikaanse aandelen), de Sirene-database van Franse bedrijven van INSEE (1,3 GB), de nationale database van gebouwen van het Centre Scientifique et Technique du Bâtiment (5,3 GB) en de database van Franse handelsmerken van INPI (15 GB).
Om deze beperkingen te overwinnen, moet je Excel achter je laten en overschakelen op Python. Waarom Python? Python onderscheidt zich van andere oplossingen voor het verwerken van massieve gegevens (R, Julia, MATLAB, Scala, SQL, enz.) door zijn eenvoudige syntaxis, geheugenbeheer en vooral door zijn indrukwekkende aantal bibliotheken.
Python is gericht op zowel datawetenschappers als niet-specialisten zoals financiële en marketingprofessionals, en meer in het algemeen op alle gevorderde Excel-gebruikers.
De bibliotheken van Python, waarvan de meeste open source zijn, kunnen worden gebruikt om de mogelijkheden op veel gebieden uit te breiden. Voor gegevens is Pandas de belangrijkste bibliotheek.
Python en Pandas, uw bondgenoten voor gegevens
Python en Pandas leren kennen is relatief snel en eenvoudig, waardoor ze ideaal zijn voor nieuwkomers in programmeren. Geen wonder dat Python in 2022 de meest gebruikte taal ter wereld zal zijn, vóór Java en C/C++, volgens de PYPL populariteitsindex. Python-vaardigheden zijn zelfs zeer gewild bij bedrijven: het is de op één na meest gevraagde taal in personeelsadvertenties na JavaScript, volgens een onderzoek van deUniversiteit van Californië, Berkeley.
Panda's komt niet van de naam van het vriendelijke dier dat het symbool van China is. Knalel Data, een gegevensstructuur die veel gebruikt wordt in de econometrie, de statistische studie van economische gegevens.
De kracht van Pandas zit in de snelheid waarmee het gegevens verwerkt. Het kan gemakkelijk een miljoen gegevens verwerken in een kwestie van seconden.
Het is flexibel en kan worden gebruikt voor basisvisualisatie van gegevens en om verschillende weergaven van de dataset te maken met draaitabellen. Het is ook mogelijk om gegevens per categorie te groeperen en aggregatiebewerkingen uit te voeren, van de eenvoudigste (cumulatieve sommen of gemiddelden, bijvoorbeeld) tot de meest complexe. Bovendien kun je met slechts één regel code je bestand openen en de gegevens bewerken. Je kunt zelfs SQL-query's uitvoeren met Pandas.
Pandas accepteert ook een indrukwekkende lijst bestandsformaten: CSV, XLSX, SQL, Apache Parquet, HDF5, JSON... en nog veel meer.
Samengevat zijn de belangrijkste voordelen van Pandas ten opzichte van Excel :
- het beheren van miljoenen lijnen
- snelheid
- taakautomatisering: met Excel is dit beperkt bij gebruik van VBA of macro's
- rapporteren met behulp van het Jupyter Notebook-platform voor gegevensvisualisatie
- compatibiliteit met meerdere platforms: je kunt zowel op macOS als op Windows werken.
Overstappen van Excel naar Python en Pandas
Met een beetje kennis van Python is het eenvoudig om over te stappen van Microsoft Excel naar Pandas. De meeste taken die in Excel worden gedaan, kunnen ook in Pandas worden gedaan.
Laten we een voorbeeld nemen om het gemak en de kracht van Python en Pandas te illustreren. Hier is een dataset van de Wereldbank die te vinden is op de site Kaggle. Dit bestand is 574,3 MB groot en bevat bijna 6 miljoen records. Het bevat een aantal economische en sociale indicatoren per land en per jaar.
Het duurt minder dan 3 seconden om dit bestand met één regel code te lezen.
We gaan nu naar de eerste vijf regels kijken om te zien waar deze gegevens mee overeenkomen. Opnieuw is een enkele regel code alles wat nodig is:
Het is ook mogelijk om de belangrijkste statistische indicatoren van elke kolom op te vragen:
Het filteren van de gegevens kan niet eenvoudiger. In het volgende voorbeeld filteren we de gegevens om alleen het BBP per hoofd van de bevolking als indicator te behouden:
Wat als we voor elk land het gemiddelde en maximale BBP per hoofd van de bevolking over alle jaren berekenen? Ook hier is slechts één regel code met Pandas nodig:
Deze paar voorbeelden illustreren de volledige kracht van Pandas. Ze zijn verre van volledig.
We kunnen in een tabel samenvatten voor welke toepassingen Python en Pandas kunnen worden gebruikt in plaats van Excel.
Pandas is een zeer krachtige bibliotheek voor het werken met gegevens. Het heeft veel voordelen ten opzichte van Excel en stelt je in staat om veel verder te gaan in het verwerken van gegevens en het automatiseren van taken. De flexibiliteit en snelheid maken het een onmisbaar hulpmiddel voor data science.
Desondanks is Pandas niet de enige Python-bibliotheek die voordelen biedt voor het verwerken van gegevens. Met visualisatietools kunt u de interacties tussen parameters begrijpen. Veel bibliotheken bieden visualisatietools: geovisualisatie met Folium, interactieve visualisatie met Plotly, het maken van interactieve dashboards met Dash, visualisatie van volumineuze gegevens met Holoviews - aan keuze geen gebrek.
Concluderend kan gesteld worden dat Python heel wat in zijn mars heeft. Dankzij de vrij toegankelijke bibliotheken overtreft het Excel als het gaat om het verwerken en visualiseren van enorme hoeveelheden gegevens (gestructureerd of ongestructureerd). Onze trainingen helpen je om dit krachtige gereedschap snel onder de knie te krijgen.