▷ 203 | ApprendrePython

Cet article explique comment parcourir un 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ avec une boucle 𝐟‌𝐨‌𝐫‌ .

Lorsque vous effectuez simplement une itération sur un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ , il renvoie les noms des colonnes ; Cependant, vous pouvez parcourir ses colonnes ou ses lignes à l’aide de méthodes telles que 𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌() (anciennement 𝐢‌𝐭‌𝐞‌𝐫‌𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌() ), . .

Fonctionnalités de base essentielles – Itération — documentation pandas 2.1.4

La dernière partie de cet article aborde également les approches permettant de traiter un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sans boucle 𝐟‌𝐨‌𝐫‌ .

Contenu

Itérer sur un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌
Itérer sur les colonnes d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ : 𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌()（anciennement 𝐢‌𝐭‌𝐞‌𝐫‌𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌()）
Itérer sur les lignes d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ : 𝐢‌𝐭‌𝐞‌𝐫‌𝐫‌𝐨‌𝐰‌𝐬‌() , 𝐢‌𝐭‌𝐞‌𝐫‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌𝐬‌()
- 𝐢𝐥𝐞𝐬𝐭𝐞𝐫𝐫𝐨𝐧𝐭()
- 𝐢𝐥𝐞𝐬𝐭𝐢𝐞𝐧𝐭 ()
Itérer sur une colonne spécifique (= S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ) d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌
Mettre à jour les valeurs dans une boucle 𝐟‌𝐨‌𝐫‌
Traiter un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sans boucle 𝐟‌𝐨‌𝐫‌
Comparaison de la vitesse de traitement

Pour plus de détails sur les boucles 𝐟‌𝐨‌𝐫‌ en Python, consultez l’article suivant.

Boucle Python pour (avec plage, énumération, zip, et plus)

La version pandas utilisée dans cet article est la suivante. Notez que les fonctionnalités peuvent varier selon les versions. Le D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ suivant est utilisé comme exemple.

import pandas as pd print(pd.__version__) # 2.1.4 df = pd.DataFrame({'age': [24, 42], 'state': ['NY', 'CA'], 'point': [64, 92]}, index=['Alice', 'Bob']) print(df) # age state point # Alice 24 NY 64 # Bob 42 CA 92

source : pandas_for_iteration.py

Itérer sur un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

L’itération directe sur un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ avec une boucle 𝐟‌𝐨‌𝐫‌ extrait les noms de colonnes de manière séquentielle.

for column_name in df: print(column_name) # age # state # point

source : pandas_for_iteration.py

Itérer sur les colonnes d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ : 𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌()（anciennement 𝐢‌𝐭‌𝐞‌𝐫‌𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌()）

La méthode 𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌() itère sur les colonnes d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sous forme de paires (𝐜‌𝐨‌𝐥‌𝐮‌𝐦‌𝐧‌_𝐧‌𝐚‌𝐦‌𝐞‌, S𝐞‌𝐫‌𝐢‌𝐞‌𝐬) .

pandas.DataFrame.items — documentation de pandas 2.1.4

Vous pouvez extraire chaque valeur en spécifiant l’étiquette dans le S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

for column_name, item in df.items(): print(column_name) print(type(item)) print(item['Alice'], item['Bob']) print('======') # age # <class 'pandas.core.series.Series'> # 24 42 # ====== # state # <class 'pandas.core.series.Series'> # NY CA # ====== # point # <class 'pandas.core.series.Series'> # 64 92 # ======

source : pandas_for_iteration.py

Notez que cette méthode était auparavant nommée 𝐢‌𝐭‌𝐞‌𝐫‌𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌() , mais elle a été modifiée en 𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌() . 𝐢‌𝐭‌𝐞‌𝐫‌𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌() a été supprimé dans la version 2.0 de pandas.

Itérer sur les lignes d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ : 𝐢‌𝐭‌𝐞‌𝐫‌𝐫‌𝐨‌𝐰‌𝐬‌() , 𝐢‌𝐭‌𝐞‌𝐫‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌𝐬‌()

Vous pouvez utiliser les méthodes 𝐢‌𝐭‌𝐞‌𝐫‌𝐫‌𝐨‌𝐰‌𝐬‌() et 𝐢‌𝐭‌𝐞‌𝐫‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌𝐬‌() pour parcourir les lignes d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ . 𝐢‌𝐭‌𝐞‌𝐫‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌𝐬‌() est plus rapide que 𝐢‌𝐭‌𝐞‌𝐫‌𝐫‌𝐨‌𝐰‌𝐬‌() .

Si vous n’avez besoin que des valeurs d’une colonne spécifique, il est encore plus rapide d’effectuer une itération sur cette colonne individuellement, comme décrit ci-après. Les résultats d’une expérience sur la vitesse de traitement sont présentés à la fin.

𝐢𝐥𝐞𝐬𝐭𝐞𝐫𝐫𝐨𝐧𝐭()

La méthode 𝐢‌𝐭‌𝐞‌𝐫‌𝐫‌𝐨‌𝐰‌𝐬‌() parcourt les lignes d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sous forme de paires (𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌, S𝐞‌𝐫‌𝐢‌𝐞‌𝐬) .

pandas.DataFrame.iterrows — documentation de pandas 2.1.4

for index, row in df.iterrows(): print(index) print(type(row)) print(row['age'], row['state'], row['point']) print('======') # Alice # <class 'pandas.core.series.Series'> # 24 NY 64 # ====== # Bob # <class 'pandas.core.series.Series'> # 42 CA 92 # ======

source : pandas_for_iteration.py

𝐢𝐥𝐞𝐬𝐭𝐢𝐞𝐧𝐭 ()

La méthode 𝐢‌𝐭‌𝐞‌𝐫‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌𝐬‌() parcourt les lignes d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ , renvoyant chacune sous la forme d’ un 𝐧‌𝐚‌𝐦‌𝐞‌𝐝‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌ .

pandas.DataFrame.itertuples — documentation de pandas 2.1.4

Par défaut, il renvoie une chaîne nommée P𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌ , dont le premier élément représente l’index (nom de la ligne). Vous pouvez à chaque valeur avec [] et . .

collections.namedtuple() — Types de données de conteneur — Documentation Python 3.12.1

for row in df.itertuples(): print(type(row)) print(row) print(row[0], row[1], row[2], row[3]) print(row.Index, row.age, row.state, row.point) print('======') # <class 'pandas.core.frame.Pandas'> # Pandas(Index='Alice', age=24, state='NY', point=64) # Alice 24 NY 64 # Alice 24 NY 64 # ====== # <class 'pandas.core.frame.Pandas'> # Pandas(Index='Bob', age=42, state='CA', point=92) # Bob 42 CA 92 # Bob 42 CA 92 # ======

source : pandas_for_iteration.py

La définition de l’argument 𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ sur F𝐚‌𝐥‌𝐬‌𝐞‌ exclut l’index de 𝐧‌𝐚‌𝐦‌𝐞‌𝐝‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌ . Vous pouvez également préciser le nom du 𝐧‌𝐚‌𝐦‌𝐞‌𝐝‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌ avec l’argument 𝐧‌𝐚‌𝐦‌𝐞‌ .

for row in df.itertuples(index=False, name='Person'): print(type(row)) print(row) print(row[0], row[1], row[2]) print(row.age, row.state, row.point) print('======') # <class 'pandas.core.frame.Person'> # Person(age=24, state='NY', point=64) # 24 NY 64 # 24 NY 64 # ====== # <class 'pandas.core.frame.Person'> # Person(age=42, state='CA', point=92) # 42 CA 92 # 42 CA 92 # ======

source : pandas_for_iteration.py

La définition de l’argument 𝐧‌𝐚‌𝐦‌𝐞‌ sur N𝐨‌𝐧‌𝐞‌ renvoie une valeur normale 𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌ .

for row in df.itertuples(name=None): print(type(row)) print(row) print(row[0], row[1], row[2], row[3]) print('======') # <class 'tuple'> # ('Alice', 24, 'NY', 64) # Alice 24 NY 64 # ====== # <class 'tuple'> # ('Bob', 42, 'CA', 92) # Bob 42 CA 92 # ======

source : pandas_for_iteration.py

Itérer sur une colonne spécifique (= S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ) d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

Bien que les méthodes 𝐢‌𝐭‌𝐞‌𝐫‌𝐫‌𝐨‌𝐰‌𝐬‌() et 𝐢‌𝐭‌𝐞‌𝐫‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌𝐬‌() génèrent toutes les valeurs de chaque ligne, si vous n’avez besoin que des valeurs d’une colonne spécifique, vous pouvez effectuer une itération sur celle-ci.

Une colonne dans un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ est un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ .

print(df['age']) # Alice 24 # Bob 42 # Name: age, dtype: int64 print(type(df['age'])) # <class 'pandas.core.series.Series'>

source : pandas_for_iteration.py

Étant donné que l’itération sur une colonne S génère ses valeurs, vous pouvez récupérer séquentiellement les valeurs de la colonne D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ en utilisant une boucle 𝐟‌𝐨‌𝐫‌ .

for age in df['age']: print(age) # 24 # 42

source : pandas_for_iteration.py

La fonction intégrée 𝐳‌𝐢‌𝐩‌() peut être utilisée pour récupérer des valeurs de plusieurs colonnes ensemble.

zip() en Python : obtenir des éléments de plusieurs listes

for age, point in zip(df['age'], df['point']): print(age, point) # 24 64 # 42 92

source : pandas_for_iteration.py

Pour récupérer les noms de lignes, utilisez l’attribut 𝐢‌𝐧‌𝐝‌𝐞‌𝐱‌ . Comme dans l’exemple ci-dessus, vous pouvez les récupérer avec d’autres colonnes à l’aide de 𝐳‌𝐢‌𝐩‌() .

print(df.index) # Index(['Alice', 'Bob'], dtype='object') print(type(df.index)) # <class 'pandas.core.indexes.base.Index'> for index in df.index: print(index) # Alice # Bob for index, state in zip(df.index, df['state']): print(index, state) # Alice NY # Bob CA

source : pandas_for_iteration.py

Mettre à jour les valeurs dans une boucle 𝐟‌𝐨‌𝐫‌

Le S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ renvoyé par 𝐢‌𝐭‌𝐞‌𝐫‌𝐫‌𝐨‌𝐰‌𝐬‌() peut être une copie, pas une vue, donc le modifier peut ne pas mettre à jour les données d’origine.

pandas : Vues et copies dans DataFrame

print(df) # age state point # Alice 24 NY 64 # Bob 42 CA 92 for index, row in df.iterrows(): row['point'] += row['age'] print(df) # age state point # Alice 24 NY 64 # Bob 42 CA 92

source : pandas_for_iteration.py

Vous pouvez mettre à jour les valeurs en sélectionnant un élément du D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ d’origine avec 𝐚‌𝐭‌[] .

pandas : obtenir/définir des valeurs avec loc, iloc, at, iat

for index, row in df.iterrows(): df.at[index, 'point'] += row['age'] print(df) # age state point # Alice 24 NY 88 # Bob 42 CA 134

source : pandas_for_iteration.py

Bien que l’exemple précédent montre l’utilisation de 𝐚‌𝐭‌[] pour mettre à jour des valeurs, il est important de noter que dans de nombreuses situations, une boucle 𝐟‌𝐨‌𝐫‌ est inutile pour de telles mises à jour. Souvent, les méthodes alternatives sont non seulement plus simples mais aussi plus efficaces. La section suivante présente des exemples spécifiques de ces alternatives.

Traiter un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sans boucle 𝐟‌𝐨‌𝐫‌

L’opération démontrée dans la section précédente avec une boucle 𝐟‌𝐨‌𝐫‌ peut également être réalisée sans boucle 𝐟‌𝐨‌𝐫‌ comme suit.

df = pd.DataFrame({'age': [24, 42], 'state': ['NY', 'CA'], 'point': [64, 92]}, index=['Alice', 'Bob']) print(df) # age state point # Alice 24 NY 64 # Bob 42 CA 92 df['point'] += df['age'] print(df) # age state point # Alice 24 NY 88 # Bob 42 CA 134

source : pandas_for_iteration.py

Il est également possible de traiter les colonnes existantes et de les ajouter en tant que nouvelles colonnes.

pandas : ajouter des lignes/colonnes au DataFrame avec assign(), insert()

df['new'] = df['point'] + df['age'] * 2 + 1000 print(df) # age state point new # Alice 24 NY 88 1136 # Bob 42 CA 134 1218

source : pandas_for_iteration.py

En plus des opérations arithmétiques utilisant des opérateurs comme + et * , vous pouvez appliquer des fonctions NumPy à chaque élément d’une colonne.

import numpy as np df['age_sqrt'] = np.sqrt(df['age']) print(df) # age state point new age_sqrt # Alice 24 NY 88 1136 4.898979 # Bob 42 CA 134 1218 6.480741

source : pandas_for_iteration.py

Pour le traitement des chaînes, pandas propose des méthodes spécifiques pour gérer directement les colonnes ( S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ).

df['state_0'] = df['state'].str.lower().str[0] print(df) # age state point new age_sqrt state_0 # Alice 24 NY 88 1136 4.898979 n # Bob 42 CA 134 1218 6.480741 c

source : pandas_for_iteration.py

De plus, vous pouvez appliquer n’importe quelle fonction à chaque élément ou à chaque ligne/colonne en utilisant les méthodes 𝐦‌𝐚‌𝐩‌() et 𝐚‌𝐩‌𝐩‌𝐥‌𝐲‌() .

pandas : appliquer des fonctions aux valeurs, lignes, colonnes avec map(), apply()

df['point_hex'] = df['point'].map(hex) print(df) # age state point new age_sqrt state_0 point_hex # Alice 24 NY 88 1136 4.898979 n 0x58 # Bob 42 CA 134 1218 6.480741 c 0x86

source : pandas_for_iteration.py

Comparaison de la vitesse de traitement

Cette section compare les vitesses de traitement des méthodes telles que 𝐢‌𝐭‌𝐞‌𝐫‌𝐫‌𝐨‌𝐰‌𝐬‌() , 𝐢‌𝐭‌𝐞‌𝐫‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌𝐬‌() et les boucles 𝐟‌𝐨‌𝐫‌ spécifiques aux colonnes .

Considérez le D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ suivant avec 100 lignes et 10 colonnes.

import pandas as pd import numpy as np df = pd.DataFrame(np.arange(1000).reshape(100, 10)) print(df.shape) # (100, 10) print(df.head(3)) # 0 1 2 3 4 5 6 7 8 9 # 0 0 1 2 3 4 5 6 7 8 9 # 1 10 11 12 13 14 15 16 17 18 19 # 2 20 21 22 23 24 25 26 27 28 29 print(df.tail(3)) # 0 1 2 3 4 5 6 7 8 9 # 97 970 971 972 973 974 975 976 977 978 979 # 98 980 981 982 983 984 985 986 987 988 989 # 99 990 991 992 993 994 995 996 997 998 999

source : pandas_for_iteration_timeit.py

Le code suivant a été mesuré à l’aide de la commande magique %%𝐭‌𝐢‌𝐦‌𝐞‌𝐢‌𝐭‌ dans Jupyter Notebook. Notez qu’il n’est pas mesuré s’il est exécuté en tant que script Python.

Mesurer le temps d’exécution avec timeit en Python

%%timeit for i, row in df.iterrows(): pass # 735 µs ± 20.5 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each) %%timeit for t in df.itertuples(): pass # 202 µs ± 1.74 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each) %%timeit for t in df.itertuples(name=None): pass # 148 µs ± 780 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each) %%timeit for i in df[0]: pass # 4.27 µs ± 30.3 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each) %%timeit for i, j, k in zip(df[0], df[4], df[9]): pass # 13.5 µs ± 53.4 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each) %%timeit for t in zip(df[0], df[1], df[2], df[3], df[4], df[5], df[6], df[7], df[8], df[9]): pass # 41.3 µs ± 281 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)

source : pandas_for_iteration_timeit.py

𝐢‌𝐭‌𝐞‌𝐫‌𝐫‌𝐨‌𝐰‌𝐬‌() a tendance à être assez lente, car elle convertit chaque ligne en un S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , alors que 𝐢‌𝐭‌𝐞‌𝐫‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌𝐬‌() est plus rapide. Cependant, les colonnes pour l’itération sont définies comme la méthode la plus rapide. Dans notre environnement d’exemple, l’itération spécifique à la colonne s’est avérée plus rapide que 𝐢‌𝐭‌𝐞‌𝐫‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌𝐬‌() , même lors de l’extraction de toutes les colonnes.

Bien que la différence de vitesse ne soit pas significative pour les ensembles de données contenant environ 100 lignes, 𝐢‌𝐭‌𝐞‌𝐫‌𝐫‌𝐨‌𝐰‌𝐬‌() ralentit considérablement avec les ensembles de données plus volumineux. Dans de tels cas, il est conseillé d’utiliser 𝐢‌𝐭‌𝐞‌𝐫‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌𝐬‌() ou une itération spécifique à la colonne.

Comme mentionné précédemment, l’approche la plus efficace consiste souvent à effectuer des opérations sans boucles .

Itérer sur un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

Itérer sur les colonnes d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ : 𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌()（anciennement 𝐢‌𝐭‌𝐞‌𝐫‌𝐢‌𝐭‌𝐞‌𝐦‌𝐬‌()）

Itérer sur les lignes d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ : 𝐢‌𝐭‌𝐞‌𝐫‌𝐫‌𝐨‌𝐰‌𝐬‌() , 𝐢‌𝐭‌𝐞‌𝐫‌𝐭‌𝐮‌𝐩‌𝐥‌𝐞‌𝐬‌()

𝐢𝐥𝐞𝐬𝐭𝐞𝐫𝐫𝐨𝐧𝐭()

𝐢𝐥𝐞𝐬𝐭𝐢𝐞𝐧𝐭 ()

Itérer sur une colonne spécifique (= S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ ) d’un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌

Mettre à jour les valeurs dans une boucle 𝐟‌𝐨‌𝐫‌

Traiter un D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ sans boucle 𝐟‌𝐨‌𝐫‌

Comparaison de la vitesse de traitement

Sujets similaires: