Création site Web 100% Gratuit

Chez nous, vous ne payez que nos abonnements de maintenance, la création de votre site est offerte.
*Offre valable jusqu’à fin novembre 2022

Comment trouver les propriétés de taille, de forme et de dimensions d’un cadre de données Pandas ?

Août 10, 2022

article de blog

Comment obtenir la taille d’un DataFrame Pandas ?

La propriété .size renvoie la taille d’un DataFrame pandas, c’est-à-dire le nombre exact de cellules de données dans votre DataFrame. Cette mesure donne un aperçu de haut niveau du volume de données contenu dans le DataFrame et est déterminée en multipliant le nombre total de lignes par le nombre total de colonnes.

Les tutoriels suivants utilisent le jeu de données Major League Baseball (MLB) Players Salaries disponible sur Kaggle . Vous pouvez télécharger le fichier CSV si vous souhaitez suivre les exemples.
Pour commencer, vous importez la bibliothèque pandas et utilisez la méthode .read_csv() pour convertir l’ensemble de données en un DataFrame, qui est affecté à la variable baseball_df : :

import pandas as pd
baseball_df = pd.read_csv(‘./mlbSalaries.csv’)

Vous pouvez confirmer que le DataFrame a été créé en utilisant la méthode .head(), qui fournit un aperçu en tirant les cinq premières lignes du DataFrame :

print(baseball_df.head())

Le résultat de l’impression de l’appel .head() est ci-dessous.

Vous pouvez voir cinq lignes de données sur les salaires des joueurs de la MLB organisées en cinq colonnes. En d’autres termes, vous avez un DataFrame. Avec de grands ensembles de données, il est plus efficace d’appeler une méthode de prévisualisation comme .head pour des confirmations rapides comme celle-ci que d’essayer d’imprimer l’ensemble du DataFrame.
Maintenant que vous avez créé le DataFrame, vous pouvez commencer à rechercher ses attributs. Commençons par le nombre total de cellules :

print(baseball_df.size)

La sortie de l’instruction print est indiquée ci-dessous.

Vous pouvez constater que votre DataFrame comporte 11 700 cellules. En d’autres termes, vous avez 11 700 valeurs dans votre ensemble de données.
Vous pouvez également enregistrer cette valeur dans une variable pour des références et des calculs ultérieurs :

df_size = baseball_df.size

Compte tenu de l’examen actuel de la taille, vous pouvez vous demander s’il existe une limite à la taille d’un DataFrame. Nous allons maintenant aborder cette question courante.

Y a-t-il une limite de taille pour les DataFrames Pandas ?

La réponse courte est oui, il y a une limite de taille pour les DataFrames pandas, mais elle est si grande que vous n’aurez probablement jamais à vous en soucier.
La réponse longue est que la limite de taille pour les DataFrames pandas est de 100 gigaoctets (Go) de mémoire au lieu d’un nombre déterminé de cellules. En fait, ce repère est si grand qu’il faudrait un ensemble de données extraordinairement grand pour l’atteindre.
Pour vous donner un peu de contexte, vous savez maintenant que le DataFrame baseball_df contient 11 700 valeurs. Pour voir ce que cela représente en mémoire, vous pouvez utiliser la méthode .info() :

baseball_df.info(verbose = False)

L’impression est ci-dessous.

Avec 11 700 valeurs, baseball_df n’a même pas encore atteint les 100 kilo-octets. C’est moins d’un dixième de mégaoctet ou un millième de Go. En effectuant quelques conversions rudimentaires, il apparaît qu’il faudrait plus de 12 milliards de cellules de données pour approcher la taille limite sur la base de l’ensemble de données actuel.
Maintenant que vous comprenez mieux la taille de votre DataFrame et ses contraintes de taille (ou son absence), plongeons dans la manière de trouver la structure du DataFrame.

Comment trouver la forme d’un DataFrame Pandas ?

La taille seule ne révèle pas tout sur votre DataFrame. Un autre attribut commun est la forme d’un DataFrame.
Le flux de travail pour la propriété .shape est similaire à celui de l’exemple .size :

print(baseball_df.shape)

Le résultat de l’instruction print est ci-dessous.

Ici, la propriété renvoie un tuple indiquant que le DataFrame comporte 2 340 lignes et 5 5 colonnes. Un tuple est similaire à une liste Python à bien des égards ; la plus grande différence est que les tuples sont immuables, ce qui signifie qu’ils ne peuvent pas être modifiés une fois déclarés.
Comme pour les listes, vous pouvez accéder à chacune des valeurs à l’aide de l’index correspondant :

baseball_df.shape[0]
# est égal à 2340
baseball_df.shape[1]
# est égal à 5

En utilisant l’indexation, vous pouvez extraire chacune de ces valeurs dans des variables à stocker et à utiliser dans les calculs. Vous pouvez également utiliser un raccourci Python appelé « unpacking » pour déclarer les deux variables sur la même ligne :

row_count, column_count = baseball_df.shape

Examinons le dernier attribut : les dimensions.

Comment récupérer les dimensions d’un DataFrame Pandas ?

Comme pour les deux autres propriétés, l’accès aux dimensions d’un DataFrame pandas est simple. Il suffit d’utiliser .ndim : :

print(baseball_df.ndim)

Ici, vous pouvez voir que la propriété renvoie un nombre entier 2 . Cela correspond aux attentes car les DataFrames sont des structures de données bidimensionnelles, c’est-à-dire qu’elles comportent des lignes et des colonnes. Si la propriété renvoie 1 , la variable est une pandas Series , qui est une structure de données unidimensionnelle.

La taille, la forme et les dimensions de Pandas DataFrame alimentent l’analyse stratégique.

L’analyse optimisée des données est l’un des principaux avantages de la bibliothèque pandas. Il s’agit non seulement d’informations dérivées des valeurs elles-mêmes, mais aussi des métadonnées de l’ensemble des données. Pandas offre des raccourcis faciles pour extraire les attributs clés de la taille, de la forme et des dimensions des DataFrames, ce qui vous permet de démarrer rapidement votre collection de métadonnées et de trouver plus rapidement les réponses dont vous avez besoin.

29 des meilleurs outils SEO pour auditer et surveiller votre site Web en 2022

L’objectif du marketing est de générer du trafic et des prospects qualifiés via le site Web de l’entreprise. C’est pourquoi, en tant que spécialistes du marketing, nous devons comprendre exactement ce que nous pouvons …

Besoin de plus de visiteurs sur votre site Web ? Revenez à l’essentiel

Lorsque vous entendez le terme « SEO » ou « optimisation pour les moteurs de recherche », pour qui pensez-vous que cela implique que vous devriez optimiser votre site ? Eh bien, je vais vous donner un indice : ce n’est pas pour les moteurs …

Demander l’indexation Google pour être trouvé plus rapidement

Lors de l’indexation, les moteurs de recherche comme Google enregistrent les pages web dans leur répertoire. Seul ce qui se trouve dans ce répertoire est affiché aux utilisateurs dans dans la recherche Google. …

Votre site 100% Gratuit

Profitez de votre création de site gratuite 👍
* Offre limitée jusqu’à fin Novembre

Vous souhaitez poster un commentaire ?

0 commentaires