▷ 201 | ApprendrePython

Dans pandas, vous pouvez calculer la somme cumulée et le produit à l’aide des méthodes 𝐜‌𝐮‌𝐦‌𝐬‌𝐮‌𝐦‌() et 𝐜‌𝐮‌𝐦‌𝐩‌𝐫‌𝐨‌𝐝‌() pour 𝐞𝐫𝐢𝐞𝐬 .

De plus, les méthodes 𝐜‌𝐮‌𝐦‌𝐦‌𝐚‌𝐱‌() et 𝐜‌𝐮‌𝐦‌𝐦𝐢‌𝐧‌() sont disponibles pour calculer le maximum et le minimum cumulés.

Cet article couvre les sujets suivants :

Somme cumulée et produit : 𝐜‌𝐮‌𝐦‌𝐬‌𝐮‌𝐦‌() , 𝐜‌𝐮‌𝐦‌𝐩‌𝐫‌𝐨‌𝐝‌()
- Utilisation de la base
- Gestion des valeurs manquantes ( N𝐚‌N ) : 𝐬‌𝐤‌𝐢‌𝐩‌𝐧‌𝐚‌
Cumulés maximum et minimum : 𝐜‌𝐮‌𝐦‌𝐦‌𝐚‌𝐱‌() , 𝐜‌𝐮‌𝐦‌𝐦‌𝐢‌𝐧‌()

Vous pouvez également utiliser la bibliothèque standard Python itertools et les fonctions/méthodes NumPy pour calculer la somme et le produit cumulés. Avec itertools, vous pouvez appliquer n’importe quelle fonction de manière cumulative.

Somme cumulée et produit : 𝐜‌𝐮‌𝐦‌𝐬‌𝐮‌𝐦‌() , 𝐜‌𝐮‌𝐦‌𝐩‌𝐫‌𝐨‌𝐝‌()

Utilisation de la base

Considérez l’exemple suivant 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ :

import pandas as pd print(pd.__version__) # 1.0.5 df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['X', 'Y', 'Z']) print(df) # A B # X 1 4 # Y 2 5 # Z 3 6

source : pandas_cumsum_cumprod.py

Par défaut, 𝐜‌𝐮‌𝐦‌𝐬‌𝐮‌𝐦‌() et 𝐜‌𝐮‌𝐦‌𝐩‌𝐫‌𝐨‌𝐝‌() calculent la somme cumulée et le produit par colonne. Pour effectuer des calculs par ligne, définissant l’argument 𝐚‌𝐱‌𝐢‌𝐬‌ sur 1 .

print(df.cumsum()) # A B # X 1 4 # Y 3 9 # Z 6 15 print(df.cumsum(axis=1)) # A B # X 1 5 # Y 2 7 # Z 3 9

source : pandas_cumsum_cumprod.py

print(df.cumprod()) # A B # X 1 4 # Y 2 20 # Z 6 120 print(df.cumprod(axis=1)) # A B # X 1 4 # Y 2 10 # Z 3 18

source : pandas_cumsum_cumprod.py

𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌fournit également les méthodes 𝐜‌𝐮‌𝐦‌𝐬‌𝐮‌𝐦‌() et 𝐜‌𝐮‌𝐦‌𝐩‌𝐫‌𝐨‌𝐝‌() .

print(df['B']) # X 4 # Y 5 # Z 6 # Name: B, dtype: int64 print(type(df['B'])) # <class 'pandas.core.series.Series'> print(df['B'].cumsum()) # X 4 # Y 9 # Z 15 # Name: B, dtype: int64 print(df['B'].cumprod()) # X 4 # Y 20 # Z 120 # Name: B, dtype: int64

source : pandas_cumsum_cumprod.py

Gestion des valeurs manquantes ( N𝐚‌N ) : 𝐬‌𝐤‌𝐢‌𝐩‌𝐧‌𝐚‌

Considérons un 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.D𝐚‌𝐭‌𝐚‌F𝐫‌𝐚‌𝐦‌𝐞‌ contenant des valeurs manquantes ( N𝐚‌N ) :

df_nan = pd.DataFrame({'A': [1, 2, 3], 'B': [4, float('nan'), 6]}, index=['X', 'Y', 'Z']) print(df_nan) # A B # X 1 4.0 # Y 2 NaN # Z 3 6.0

source : pandas_cumsum_cumprod.py

Par défaut, les valeurs manquantes ( N𝐚‌N ) sont ignorées.

print(df_nan.cumsum()) # A B # X 1 4.0 # Y 3 NaN # Z 6 10.0

source : pandas_cumsum_cumprod.py

Si vous définissez l’argument 𝐬‌𝐤‌𝐢‌𝐩‌𝐧‌𝐚‌ sur F𝐚‌𝐥‌𝐬‌𝐞‌ , les valeurs manquantes ( N𝐚‌N ) sont également utilisées. Étant donné que les opérations arithmétiques avec N𝐚‌N donnent N𝐚‌N , tous les éléments suivants un N𝐚‌N deviennent N𝐚‌N .

print(float('nan') + 4) # nan print(df_nan.cumsum(skipna=False)) # A B # X 1 4.0 # Y 3 NaN # Z 6 NaN

source : pandas_cumsum_cumprod.py

Ceci s’applique également à 𝐜‌𝐮‌𝐦‌𝐩‌𝐫‌𝐨‌𝐝‌() .

print(df_nan.cumprod()) # A B # X 1 4.0 # Y 2 NaN # Z 6 24.0 print(df_nan.cumprod(skipna=False)) # A B # X 1 4.0 # Y 2 NaN # Z 6 NaN

source : pandas_cumsum_cumprod.py

Le même comportement est observé pour 𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ , mais les exemples ne sont pas présentés ici par souci de concision.

Cumulés maximum et minimum : 𝐜‌𝐮‌𝐦‌𝐦‌𝐚‌𝐱‌() , 𝐜‌𝐮‌𝐦‌𝐦‌𝐢‌𝐧‌()

Il existe également les méthodes 𝐜‌𝐮‌𝐦‌𝐦‌𝐚‌𝐱‌() et 𝐜‌𝐮‌𝐦‌𝐦𝐢‌𝐧‌() pour calculer les valeurs maximales et minimales cumulées. Elles sont utiles, par exemple, pour calculer la valeur maximale ou minimale jusqu’à un certain point dans les données de séries chronologiques.

L’utilisation est la même que pour 𝐜‌𝐮‌𝐦‌𝐬‌𝐮‌𝐦‌() et 𝐜‌𝐮‌𝐦‌𝐩‌𝐫‌𝐨‌𝐝‌() . Les calculs sont effectués par colonne par défaut et par ligne si 𝐚‌𝐱‌𝐢‌𝐬‌=1 .

df2 = pd.DataFrame({'A': [1, 4, 2], 'B': [6, 3, 5]}, index=['X', 'Y', 'Z']) print(df2) # A B # X 1 6 # Y 4 3 # Z 2 5 print(df2.cummax()) # A B # X 1 6 # Y 4 6 # Z 4 6 print(df2.cummax(axis=1)) # A B # X 1 6 # Y 4 4 # Z 2 5 print(df2.cummin()) # A B # X 1 6 # Y 1 3 # Z 1 3 print(df2.cummin(axis=1)) # A B # X 1 1 # Y 4 3 # Z 2 2

source : pandas_cumsum_cumprod.py

La gestion des valeurs manquantes ( N𝐚‌N ) est également la même que pour 𝐜‌𝐮‌𝐦‌𝐬‌𝐮‌𝐦‌() et 𝐜‌𝐮‌𝐦‌𝐩‌𝐫‌𝐨‌𝐝‌() , et l’argument 𝐬‌𝐤‌𝐢‌𝐩‌𝐧‌𝐚‌ peut être spécifié.

df2_nan = pd.DataFrame({'A': [1, 4, 2], 'B': [6, float('nan'), 5]}, index=['X', 'Y', 'Z']) print(df2_nan) # A B # X 1 6.0 # Y 4 NaN # Z 2 5.0 print(df2_nan.cummax()) # A B # X 1 6.0 # Y 4 NaN # Z 4 6.0 print(df2_nan.cummax(skipna=False)) # A B # X 1 6.0 # Y 4 NaN # Z 4 NaN print(df2_nan.cummin()) # A B # X 1 6.0 # Y 1 NaN # Z 1 5.0 print(df2_nan.cummin(skipna=False)) # A B # X 1 6.0 # Y 1 NaN # Z 1 NaN

source : pandas_cumsum_cumprod.py

𝐩‌𝐚‌𝐧‌𝐝‌𝐚‌𝐬‌.S𝐞‌𝐫‌𝐢‌𝐞‌𝐬‌ prend également en charge les méthodes 𝐜‌𝐮‌𝐦‌𝐦‌𝐚‌𝐱‌() et 𝐜‌𝐮‌𝐦‌𝐦‌𝐢‌𝐧‌() , mais les exemples sont omis par souci de concision.

Somme cumulée et produit : 𝐜‌𝐮‌𝐦‌𝐬‌𝐮‌𝐦‌() , 𝐜‌𝐮‌𝐦‌𝐩‌𝐫‌𝐨‌𝐝‌()

Utilisation de la base

Gestion des valeurs manquantes ( N𝐚‌N ) : 𝐬‌𝐤‌𝐢‌𝐩‌𝐧‌𝐚‌

Cumulés maximum et minimum : 𝐜‌𝐮‌𝐦‌𝐦‌𝐚‌𝐱‌() , 𝐜‌𝐮‌𝐦‌𝐦‌𝐢‌𝐧‌()

Sujets similaires: